Статистическая корреляция

Корреляция как статистическая взаимосвязь нескольких случайных величин, ее математическая мера и расчет основных коэффициентов. Параметрические (ковариация, линейный коэффициент) и непараметрические (коэффициент Кендалла, Спирмена, Фехнера) показатели.

Рубрика Экономика и экономическая теория
Вид контрольная работа
Язык русский
Дата добавления 17.09.2013
Размер файла 108,3 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Размещено на http://www.allbest.ru/

1. Корреляция, определение

Корреляция (корреляционная зависимость) - статистическая взаимосвязь двух или нескольких случайных величин (либо величин, которые можно с некоторой допустимой степенью точности считать таковыми). При этом изменения значений одной или нескольких из этих величин сопутствуют систематическому изменению значений другой или других величин. [1] Математической мерой корреляции двух случайных величин служит корреляционное отношение , либо коэффициент корреляции (или ). В случае, если изменение одной случайной величины не ведёт к закономерному изменению другой случайной величины, но приводит к изменению другой статистической характеристики данной случайной величины, то подобная связь не считается корреляционной, хотя и является статистической.

Впервые в научный оборот термин «корреляция» ввёл французский палеонтолог Жорж Кювье в XVIII веке. Он разработал «закон корреляции» частей и органов живых существ, с помощью которого можно восстановить облик ископаемого животного, имея в распоряжении лишь часть его останков. В статистике слово «корреляция» первым стал использовать английский биолог и статистик Фрэнсис Гальтон в конце XIX века.

Некоторые виды коэффициентов корреляции могут быть положительными или отрицательными. В первом случае предполагается, что мы можем определить только наличие или отсутствие связи, а во втором - также и ее направление. Если предполагается, что на значениях переменных задано отношение строгого порядка, то отрицательная корреляция - корреляция, при которой увеличение одной переменной связано с уменьшением другой. При этом коэффициент корреляции будет отрицательным. Положительная корреляция в таких условиях - это такая связь, при которой увеличение одной переменной связано с увеличением другой переменной. Возможна также ситуация отсутствия статистической взаимосвязи - например, для независимых случайных величин.

Взаимосвязь величин

Значительная корреляция между двумя случайными величинами всегда является свидетельством существования некоторой статистической связи в данной выборке, но эта связь не обязательно должна наблюдаться для другой выборки и иметь причинно-следственный характер. Часто заманчивая простота корреляционного исследования подталкивает исследователя делать ложные интуитивные выводы о наличии причинно-следственной связи между парами признаков, в то время как коэффициенты корреляции устанавливают лишь статистические взаимосвязи. Например, рассматривая пожары в конкретном городе, можно выявить весьма высокую корреляцию между ущербом, который нанес пожар, и количеством пожарных, участвовавших в ликвидации пожара, причём эта корреляция будет положительной. Из этого, однако, не следует вывод «бомльшее количество пожарных приводит к бомльшему ущербу», и тем более не имеет смысла попытка минимизировать ущерб от пожаров путем ликвидации пожарных бригад. В то же время, отсутствие корреляции между двумя величинами ещё не значит, что между ними нет никакой связи.

2. Показатели корреляции

2.1 Параметрические показатели корреляции

корреляция параметрический статистический

Ковариация

Важной характеристикой совместного распределения двух случайных величин является ковариация (или корреляционный момент). Ковариация является совместным центральным моментом второго порядка. Ковариация определяется как математическое ожидание произведения отклонений случайных величин:

где - математическое ожидание.

Свойства ковариации:

1. Ковариация двух независимых случайных величин и равна нулю.

2. Абсолютная величина ковариации двух случайных величин и не превышает среднего геометрического их дисперсий: .

Ковариация имеет размерность, равную произведению размерности случайных величин, то есть величина ковариации зависит от единиц измерения независимых величин. Данная особенность ковариации затрудняет её использование в целях корреляционного анализа.

Линейный коэффициент корреляции

Для устранения недостатка ковариации был введён линейный коэффициент корреляции (или коэффициент корреляции Пирсона), который разработали Карл Пирсон, Фрэнсис Эджуорт и Рафаэль Уэлдон (англ.) русск. в 90-х годах XIX века. Коэффициент корреляции рассчитывается по формуле:

где - среднее значение выборок.

Коэффициент корреляции изменяется в пределах от минус единицы до плюс единицы.

Линейный коэффициент корреляции связан с коэффициентом регрессии в виде следующей зависимости: где - коэффициент регрессии, - среднеквадратическое отклонение соответствующего факторного признака.

Для графического представления подобной связи можно использовать прямоугольную систему координат с осями, которые соответствуют обеим переменным. Каждая пара значений маркируется при помощи определенного символа. Такой график называется «диаграммой рассеяния».

Метод вычисления коэффициента корреляции зависит от вида шкалы, к которой относятся переменные. Так, для измерения переменных с интервальной и количественной шкалами необходимо использовать коэффициент корреляции Пирсона (корреляция моментов произведений). Если по меньшей мере одна из двух переменных имеет порядковую шкалу, либо не является нормально распределённой, необходимо использовать ранговую корреляцию Спирмена или (тау) Кендалла. В случае, когда одна из двух переменных является дихотомической, используется точечная двухрядная корреляция, а если обе переменные являются дихотомическими: четырёхполевая корреляция. Расчёт коэффициента корреляции между двумя недихотомическими переменными не лишён смысла только тогда, когда связь между ними линейна (однонаправлена).

2.2 Непараметрические показатели корреляции

Коэффициент ранговой корреляции Кендалла

Применяется для выявления взаимосвязи между количественными или качественными показателями, если их можно ранжировать. Значения показателя X выставляют в порядке возрастания и присваивают им ранги. Ранжируют значения показателя Y и рассчитывают коэффициент корреляции Кендалла:

,

где .

- сРазмещено на http://www.allbest.ru/

Размещено на http://www.allbest.ru/

уммарное число наблюдений, следующих за текущими наблюдениями с большим значением рангов Y.

- суммарное число наблюдений, следующих за текущими наблюдениями с меньшим значением рангов Y. (равные ранги не учитываются!)

Размещено на http://www.allbest.ru/

Размещено на http://www.allbest.ru/

Если исследуемые данные повторяются (имеют одинаковые ранги), то в расчетах используется скорректированный коэффициент корреляции Кендалла:

- число связанных рангов в ряду X и Y соответственно.

Коэффициент ранговой корреляции Спирмена

Каждому показателю X и Y присваивается ранг. На основе полученных рангов рассчитываются их разности и вычисляется коэффициент корреляции Спирмена:

Коэффициент корреляции знаков Фехнера

Подсчитывается количество совпадений и несовпадений знаков отклонений значений показателей от их среднего значения.

корреляция коэффициент параметрический статистический

C - число пар, у которых знаки отклонений значений от их средних совпадают.

H - число пар, у которых знаки отклонений значений от их средних не совпадают.

Коэффициент множественной ранговой корреляции (конкордации)

m - число групп, которые ранжируются.

n - число переменных.

- ранг Размещено на http://www.allbest.ru/

Размещено на http://www.allbest.ru/

i - фактора у j-единицы.

Значимость:

, то гипотеза об отсутствии связи отвергается.

В случае наличия связанных рангов:

2.3 Свойства коэффициента корреляции

1. Неравенство Коши - Буняковского:

если принять в качестве скалярного произведения двух случайных величин ковариацию (X, Y)=cov (X, Y) то норма случайной величины будет равна , и следствием неравенства Коши - Буняковского будет:

.

2. Коэффициент корреляции равен тогда и только тогда, когда X и Y линейно зависимы (исключая события нулевой вероятности, когда несколько точек «выбиваются» из прямой, отражающей линейную зависимость случайных величин):

,

где . Более того в этом случае знаки и совпадают:

.

3. Если независимые случайные величины, то . Обратное в общем случае неверно.

3. Корреляционный анализ

Корреляционный анализ - метод обработки статистических данных, с помощью которого измеряется теснота связи между двумя или более переменными. Корреляционный анализ тесно связан с регрессионным анализом (также часто встречается термин «корреляционно-регрессионный анализ», который является более общим статистическим понятием), с его помощью определяют необходимость включения тех или иных факторов в уравнение множественной регрессии, а также оценивают полученное уравнение регрессии на соответствие выявленным связям (используя коэффициент детерминации).

3.1 Ограничения корреляционного анализа

корреляция коэффициент параметрический статистический

Множество корреляционных полей. Распределения значений (x, y) с соответствующими коэффициентами корреляций для каждого из них. Коэффициент корреляции отражает «зашумлённость» линейной зависимости (верхняя строка), но не описывает наклон линейной зависимости (средняя строка), и совсем не подходит для описания сложных, нелинейных зависимостей (нижняя строка). Для распределения, показанного в центре рисунка, коэффициент корреляции не определен, так как дисперсия y равна нулю.

Применение возможно при наличии достаточного количества наблюдений для изучения. На практике считается, что число наблюдений должно быть не менее, чем в 5-6 раз превышать число факторов (также встречается рекомендация использовать пропорцию не менее, чем в 10 раз превышающую количество факторов). В случае, если число наблюдений превышает количество факторов в десятки раз, в действие вступает закон больших чисел, который обеспечивает взаимопогашение случайных колебаний.

Необходимо, чтобы совокупность значений всех факторных и результативного признаков подчинялась многомерному нормальному распределению. В случае, если объём совокупности недостаточен для проведения формального тестирования на нормальность распределения, то закон распределения определяется визуально на основе корреляционного поля. Если в расположении точек на этом поле наблюдается линейная тенденция, то можно предположить, что совокупность исходных данных подчиняется нормальному закону распределения. Исходная совокупность значений должна быть качественно однородной.

Сам по себе факт корреляционной зависимости не даёт основания утверждать, что одна из переменных предшествует или является причиной изменений, или то, что переменные вообще причинно связаны между собой, а не наблюдается действие третьего фактора.

3.2 Область применения. Корреляционный метод исследования

Данный метод обработки статистических данных весьма популярен в экономике и социальных науках (в частности в психологии и социологии), хотя сфера применения коэффициентов корреляции обширна: контроль качества промышленной продукции, металловедение, агрохимия, гидробиология, биометрия и прочие. В различных прикладных отраслях приняты разные границы интервалов для оценки тесноты и значимости связи.

Популярность метода обусловлена двумя моментами: коэффициенты корреляции относительно просты в подсчете, их применение не требует специальной математической подготовки. В сочетании с простотой интерпретации, простота применения коэффициента привела к его широкому распространению в сфере анализа статистических данных.

Для обеспечения доказательности получаемых в исследованиях результатов должна быть выбрана «доказательная», т.е. адекватная задачам, методика исследования (дизайн исследования и методы статистического анализа), которую учитывают при выборке информации из массива данных.

Выбор методики исследования в зависимости от цели исследования

Задачи исследования

Дизайн исследования

Методы статистического анализа

Оценка распространенности заболевания

Одномоментное исследование всей группы (популяции) с использованием строгих критериев распознавания болезни

Оценка доли, вычисление относительных показателей

Оценка заболеваемости

Когортное исследование

Оценка доли, вычисление динамических рядов, относительных показателей

Оценка факторов риска возникновения заболевания

Когортные исследования. Исследования «случай - контроль»

Корреляционный, регрессионный анализ, анализ выживаемости, оценка рисков, отношение шансов

Оценка влияния на людей факторов окружающей среды, изучение причинно-следственных отношений в популяции

Экологические исследования популяции

Корреляционный, регрессионный анализ, анализ выживаемости, оценка рисков (добавочный риск, относительный риск, добавочный популяционный риск, добавочная доля популяционного риска), отношение шансов

Привлечение внимания к необычному течению заболевания, результату лечения

Описание случая, серии случаев

Нет

Описание результатов текущей клинической практики

Обсервационное («до и после»)

Среднее, стандартное отклонение, парный критерий Стьюдента (количественные данные).

Критерий Мак-Нимара (качественные данные)

Испытание нового метода лечения

Клиническое испытание I фазы («до и после»)

Среднее, стандартное отклонение, парный критерий Стьюдента.

Критерий Мак-Нимара

Сравнение двух методов лечения текущей клинической практики

Контролируемое проспективное. Рандомизированное (открытое, слепое, двойное слепое). Контролируемое ретроспективное. Контролируемое проспективное + ретроспективное (смешанный дизайн)

Критерий Стьюдента (количественные данные).

Критерий ч2 или z (качественные признаки).

Критерий Каплана-Маерса (выживаемость)

Сравнение нового и традиционного метода лечения

Клинические испытания II-IV фаз (контролируемое проспективное или рандомизированное)

Критерий Стьюдента.

Критерий ч2.

Критерий Каплана-Маерса

Каждый тип исследований характеризуется определенными правилами сбора и анализа информации. Если эти правила соблюдены, любой вид исследования можно назвать качественным, независимо от того, будут ли они подтверждать или опровергать выдвинутую гипотезу.

Корреляционный подход как метод исследования - это такой способ организации сбора данных, при котором эмпирическое наблюдение и измерение двух (и более) переменных позволяют установить наличие связи между ними, причем ни одна из переменных не подвергается произвольному варьированию со стороны исследователя. Обе переменные либо измеряются одновременно как два показателя одного процесса, два свойства одного субъекта и т.п., либо измерение их в порядке временного следования (одна за другой) не отвергает рассмотрения этих переменных как уже существовавших ранее (до момента измерения). В результате исследователь не может логически обосновать направленность связи между переменными, хотя содержательно он ее всегда интерпретирует определенным образом. Тем самым корреляционное исследование как метод сбора опытных данных противопоставляется экспериментальному, в котором осуществляется функциональный контроль, т.е. манипулирование переменной, называемой «независимой» (НП). Экспериментальный план является одновременно планом измерений зависимой переменной (ЗП), предполагающим способы последующей обработки этих данных (Налимов, 1977, Хикс, 1967). Корреляционный метод также включает определение порядка получения данных, но не как плана воздействий на переменные, а лишь как плана их измерения. Планы статистической обработки могут быть при этом схожими, но если не выполнены условия управления переменными, собственно экспериментальный вывод невозможен. Не допустить влияния на связь между А и Б других переменных, называемых «побочными», - значит обеспечить однозначную интерпретацию в соответствии с исходной гипотезой о том, что именно управляемая переменная А влияет на Б, а не какая-то другая причина (Гласе, Стенли, 1976; Кэмпбелл, 1980, Bredenkamp, 1983).,

Корреляция как статистическая мера связи используется как в корреляционном, так и в экспериментальном исследовании. Разница заключается в характере проверяемых нуль-гипотез и тех выводах, которые могут быть сделаны на основе статистических решений. При корреляционном подходе выступают равноправными с точки зрения статистического вывода решения о равенстве коэффициентов корреляции какому-то числу (Но: rху = а), об одинаковой корреляции с другими переменными (Но: rxу=rхz), о значимости множественной корреляции. Какие конкретно коэффициенты корреляции необходимо использовать - это зависит от вида шкал, в которых измерены переменные, а также от предполагаемой формы связи (линейная или криволинейная).

Основная цель использования мер связи в экспериментальном исследовании - проверка статистической гипотезы о том, что переменные X и Y не связаны. Если нуль-гипотезу нельзя отвергнуть, то следует отвергать экспериментальную гипотезу об исследуемом эффекте. В этой логике проверки экспериментальных гипотез коэффициенты корреляций выполняют ту же роль, что и меры различий (X2, t-критерий и т.д.).

Поскольку в корреляционном исследовании не обеспечивается управление уровнями какой-то переменной, корреляционный подход иногда называют «пассивно-наблюдающим» (Campbell, Cook, 1979). При этом иногда упускается из виду вторая особенность корреляционных исследований - преимущественно индуктивный способ получения выводов. Так, построение содержательных обобщений в них часто основывается на результатах компактного представления эмпирических данных. Модели статистического анализа результатов «пассивно-наблюдающего» исследования благодаря сокращению размерности данных позволяют выявлять структурные связи между переменными и тем самым облегчают индуктивные выводы.

Примеры использования корреляции для сокращения размерности данных хорошо описаны в виде так называемых расчленяющих моделей в обширном обзоре Ходдапа и Урмута (Hoddap, Wermuth, 1983). В частности, они приводят пример исследования связи различных проявлений детского эгоцентризма с другими переменными. По матрице-интеркорреляций построены связи между следующими переменными, представленными в таблице.

На основании построенной модели стали возможны дифференцированные выводы о взаимосвязях, а именно: «когнитивный эгоцентризм» прямо связан с «возрастом», «памятью», «коммуникативным эгоцентризмом» и лишь косвенно - с «пространственным» и «ролевым эгоцентризмом».

Традиционное корреляционное исследование рассматривалось как предваряющее построение эксперимента: если корреляции не обнаружено, то нет необходимости проверять причинно-следственную зависимость между переменными. В настоящее время оно начинает выполнять и другую функцию - приближения к гипотетико-дедуктивному рассуждению. Если имеющаяся до исследования теоретическая интерпретация возможной направленности связи проверяется эмпирически, а гипотетические следствия из этой априорной интерпретации не подтверждаются в вычисляемых коэффициентах корреляции, то предполагаемая интерпретация остается неверной.

Выводы о направленности корреляционных соотношений. Причинный вывод из корреляционного исследования строится на основе сопоставления эмпирических и теоретически предполагаемых корреляций в формальных моделях связей. В этом случае строят модель направления влияний между переменными (теперь уже не разделяемыми на независимые и зависимые), которая может проверяться как в корреляционном, так и в экспериментальном исследовании. Содержательная гипотеза при этом конкретизируется в виде статистической модели, интерпретация которой реализуется в виде структурных уравнений, а образная репрезентация - в виде графов. В этих графах место независимых переменных занимают «входные», или «экзогенные», переменные, из которых выходит стрелка, обозначающая направление связи, место зависимых - «выходные», или «эндогенные» переменные, к которым приходит.

Список использованной литературы

1. Гмурман В.Е. Теория вероятностей и математическая статистика: Учебное пособие для вузов. - 10-е издание, стереотипное. - Москва: Высшая школа, 2004. - 479 с. - ISBN 5-06-004214-6

2. Елисеева И.И., Юзбашев М.М. Общая теория статистики: Учебник / Под ред. И.И. Елисеевой. - 4-е издание, переработанное и дополненное. - Москва: Финансы и Статистика, 2002. - 480 с. - ISBN 5-279-01956-9

3. Общая теория статистики: Учебник / Под ред. Р.А. Шмойловой. - 3-е издание, переработанное. - Москва: Финансы и Статистика, 2002. - 560 с. - ISBN 5-279-01951-8

4. Суслов В.И., Ибрагимов Н.М., Талышева Л.П., Цыплаков А.А. Эконометрия. - Новосибирск: СО РАН, 2005. - 744 с. - ISBN 5-7692-0755-8

5. Седьмой съезд Научного общества гастроэнтерологов России. Тезисы докладов. Приложение №1 к журналу «Экспериментальная и клиническая гастроэнтерология». 2007, Москва, с. 93-94.

Размещено на Allbest.ru


Подобные документы

  • Коэффициент корреляции, его значение и основные характеристики. Связь между двумя переменными. Динамика уровней ряда. Исследование временного ряда. Последовательность коэффициентов автокорреляции уровней первого, второго и последующих порядков.

    курсовая работа [295,7 K], добавлен 06.05.2015

  • Корреляция, линейная и нелинейная регрессия. Дисперсионный, лискриминантный и кластерный анализ. Линейное программирование. Параметрические и непараметрические критерии. Определение существования взаимосвязи между рентабельностью и затратами на рекламу.

    курсовая работа [502,6 K], добавлен 13.01.2015

  • Определение средней ожидаемой доходности, дисперсии, среднеквадратического отклонения и коэффициента отклонения, исходя из доходности акции по годам. Ковариация и коэффициент корреляции. Расчет ожидаемой доходности инвестиционного портфеля, его рисков.

    контрольная работа [72,8 K], добавлен 27.11.2014

  • Основные черты, задачи и предпосылки применения корреляционно-регрессионного метода. Методы корреляционного и регрессионного анализа. Коэффициент ранговой корреляции Кендалла, Спирмена, Фехнера. Определение тесноты взаимосвязи между показателями.

    контрольная работа [558,5 K], добавлен 08.04.2013

  • Классификация показателей тесноты связи. Основные способы расчета показателей и определение их значимости. Линейный коэффициент корреляции для несгруппированных данных. Принятие решений о тесноте связи на основе линейного коэффициента корреляции.

    презентация [146,4 K], добавлен 16.03.2014

  • Основные этапы многофакторного корреляционного анализа и интерпретация его параметров. Назначение коэффициентов эластичности и стандартизированных бетта-коэффициентов. Расчет значимости коэффициентов регрессии и корреляции с помощью f-критерия Стьюдента.

    контрольная работа [605,2 K], добавлен 29.07.2010

  • Назначение рангового коэффициента корреляции, определение силы и направления корреляционной связи между двумя признаками или двумя профилями (иерархиями) признаков. Графическое представление метода ранговой корреляции, расчет эмпирического значения rs.

    презентация [46,5 K], добавлен 12.11.2010

  • Порядок построения линейного уравнения парной регрессии, расчет коэффициентов и оценка статической значимости параметров регрессии и корреляции. Точность прогноза. Множественная регрессия и корреляция. Системы эконометрических уравнений. Временные ряды.

    контрольная работа [1,3 M], добавлен 24.09.2013

  • Группировка как основа научной сводки и обработки статистических данных. Коэффициент детерминации и эмпирическое корреляционное отношение. Корреляционно–регрессионный анализ, линейный коэффициент. Расчет индекса физического объема реализации товара.

    контрольная работа [106,2 K], добавлен 08.09.2010

  • Расчет коэффициентов корреляции Пирсона и ранговой корреляции Спирмена по регионам Российской Федерации для заданных показателей. Построение линейной и нелинейной (квадратической) модели регрессии. Проведение проверки значимости для полученных данных.

    контрольная работа [464,0 K], добавлен 28.05.2012

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.