Корреляционный анализ
Функциональная и статистическая зависимость между величинами: сущность и особенности. Примеры корреляционных связей и полей. Методы определения формы и направления связи, измерение степени ее тесноты. Корреляционная матрица и ее основные свойства.
Рубрика | Математика |
Вид | реферат |
Язык | русский |
Дата добавления | 21.10.2012 |
Размер файла | 313,6 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru/
МИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ РОССИЙСКОЙ ФЕДЕРАЦИИ
ДАЛЬНЕВОСТОЧНЫЙ ФЕДЕРАЛЬНЫЙ УНИВЕРСИТЕТ
ШКОЛА ЕСТЕСТВЕННЫХ НАУК
РЕФЕРАТ
КОРРЕЛЯЦИОННЫЙ АНАЛИЗ
Выполнил: Усачёв В.В.,
направление 230200.62
Информационные системы
Научный руководитель:
Ширмовский С.Э., с.н.с.,
к.ф.-м.н., доцент кафедры общей физики
г. Владивосток
2012 г.
Содержание
Вступление
Зависимости
Корреляционный анализ
Корреляция
Корреляционные поля
Определение формы связи
Определение направления связи
Измерение степени тесноты связи
Коэффициент ковариации
Коэффициент корреляции
Корреляционная матрица
Аналитическое выражение связи
Заключение
Список литературы
Вступление
Исследователей нередко интересует, как связаны между собой две или большее количество переменных в одной или нескольких изучаемых выборках. Например, такая связь может наблюдаться между погрешностью аппаратной обработки экспериментальных данных и величиной скачков сетевого напряжения. Другим примером может служить связь между пропускной способностью канала передачи данных и соотношением сигнал/шум.
В 1886 году английский естествоиспытатель Френсис Гальтон для обозначения характера подобного рода взаимодействий ввёл термин «корреляция». Позже его ученик Карл Пирсон разработал математическую формулу, позволяющую дать количественную оценку корреляционным связям признаков.
Зависимости
Зависимости между величинами (факторами, признаками) разделяют на два вида: функциональную и статистическую.
Отличительной особенностью функциональной зависимости двух величин считается тот факт, что значению одной из них всегда соответствует одно или несколько точно определённых значений другой величины. Кроме того, функциональная связь двух факторов возможна только при условии, что вторая величина зависит только от первой и не зависит ни от каких других величин. В случае зависимости величины от множества факторов, функциональная связь возможна, если первая величина не зависит ни от каких других факторов, кроме входящих в указанное множество.
В реальных ситуациях эти условия не выполнимы, поскольку всегда существует огромное количество свойств самого объекта и окружающей его среды, влияющих друг на друга, что приводит к невозможности учёта всех взаимодействий (как качественно, так и количественно), поэтому такого рода связи не существуют. Естественно, функциональная связь является математической абстракцией и находит практическое применение только тогда, когда определённая величина в основном зависит от соответствующих факторов, а остальные связи пренебрежимо слабы.
При статистической зависимости изменение одной из величин влечёт изменение распределения других величин, которые с определенными вероятностями принимают некоторые значения. Функциональную зависимость следует считать частным случаем статистической: значению одного фактора соответствуют значения других факторов с вероятностью, равной единице.
Значительно больший интерес представляет другой частный случай статистической зависимости, когда существует взаимосвязь значений одних случайных величин со средним значением других, при той особенности, что в каждом отдельном случае любая из взаимосвязанных величин может принимать различные значения.
Такого рода зависимость между переменными величинами называется корреляционной, или корреляцией. Она имеет место не только в природных явлениях и физических процессах, но и в социальной сфере. Этот факт предопределил разносторонний интерес исследователей различных научных кругов к разработке и дальнейшему развитию методов анализа и оценки корреляционных зависимостей.
Корреляционный анализ
Корреляционный анализ, как и другие статистические методы, основан на использовании вероятностных моделей, описывающих поведение исследуемых признаков в некоторой генеральной совокупности, из которой получены экспериментальные значения и .
Задача корреляционного анализа сводится к следующим более малым задачам:
· установлению формы (линейная, нелинейная)
· и направления (положительное или отрицательное) связи между варьирующими признаками,
· измерению тесноты связи
· и проверке уровня значимости полученных коэффициентов корреляции.
Корреляция
Корреляция - статистическая взаимосвязь двух или нескольких случайных величин (либо величин, которые можно с некоторой допустимой степенью точности считать таковыми). При этом изменению значений одной или нескольких из этих величин сопутствует систематическое изменение значений другой или других величин.
Математической мерой корреляции двух случайных величин служит линейный коэффициент корреляции (коэффициент корреляции Пирсона).
В общем случае корреляционная связь описывает следующие виды зависимостей:
· причинную зависимость между значениями параметров. Пример такой зависимости приводился выше: взаимосвязь пропускной способности канала передачи данных и соотношения сигнал/шум (на пропускную способность влияют и другие факторы - характер помех, амплитудно-частотные характеристики канала, способ кодирования сообщений и прочее). Установить однозначную связь между конкретными значениями указанных параметров не удаётся, но очевидно, что пропускная способность зависит от соотношения уровней сигнала и помех в канале. Иногда при этом причину и следствие особо не выделяют. В некоторых случаях такая корреляция является бессмысленной, например: если в качестве исходного фактора взять доходы разработчиков антивирусных программ, а за результат - количество вновь появляющихся вирусов, то можно сделать вывод, что разработчики антивирусов «стимулируют» создание вирусов;
· «зависимость» между следствиями общей причины. Подобная зависимость характерна, в частности, для скорости и безошибочности набора текста оператором (оба фактора зависят от квалификации оператора).
Корреляционные связи различаются по форме, направлению и степени (силе).
Корреляционные поля
Корреляция изучается на основании экспериментальных данных, представляющих собой измеренные значения двух признаков . Если экспериментальных данных сравнительно немного, то двумерное эмпирическое распределение представляется в виде двойного ряда значений . При этом корреляционную зависимость между признаками можно описывать разными способами. Соответствие между аргументом и функцией может быть задано таблицей, формулой, графиком и т. д.
Когда исследуется корреляция между количественными признаками, значения которых можно точно измерить в единицах метрических шкал, то очень часто принимается модель двумерной нормально распределенной генеральной совокупности. Такая модель отображает зависимость между переменными величинами и графически в виде геометрического места точек в системе прямоугольных координат. Эта графическая зависимость называется диаграммой рассеивания или корреляционным полем.
Данная модель двумерного нормального распределения (корреляционное поле) позволяет дать наглядную графическую интерпретацию коэффициента корреляции, т.к. распределение в совокупности зависит от пяти параметров:
· математических ожиданий величин ;
· стандартных отклонений случайных величин ;
коэффициента корреляции , который является мерой связи между случайными величинами и .
Примеры корреляционных полей.
Если , то значения , полученные из двумерной нормальной совокупности, располагаются на графике в пределах области, ограниченной окружностью. В этом случае между случайными величинами x и y отсутствует корреляция, и они называются некоррелированными. Для двумерного нормального распределения некоррелированность означает одновременно и независимость случайных величин x и y.
Если или , то говорят о полной корреляции, то есть между случайными величинами и существует линейная функциональная зависимость.
При значения определяют точки, лежащие на прямой линии, имеющей положительный наклон (с увеличением значения также увеличиваются).
При прямая имеет отрицательный наклон.
В промежуточных случаях, когда , определяемые значениями точки попадают в область, ограниченную некоторым эллипсом, причём при имеет место положительная корреляция (с увеличением значения в целом имеют тенденцию к возрастанию), при корреляция отрицательная. Чем ближе к , тем уже эллипс и тем теснее точки, определяемые экспериментальными значениями, группируются около прямой линии.
Здесь же следует обратить внимание на то, что линия, вдоль которой группируются точки, может быть не только прямой, а иметь любую другую форму: парабола, гипербола и т. д. В этих случаях рассматривают нелинейную корреляцию.
Корреляционную зависимость между признаками можно описывать разными способами, в частности, любая форма связи может быть выражена уравнением общего вида , где признак - зависимая переменная, или функция от независимой переменной , называемой аргументом.
Таким образом, визуальный анализ корреляционного поля помогает определить не только наличие статистической связи (линейной или нелинейной) между исследуемыми признаками, но и ее тесноту и форму.
Определение формы связи
По форме корреляционная связь может быть линейной или нелинейной.
Линейной может быть, например, связь между уровнем подготовки студента и оценками итоговой аттестации. Пример нелинейной связи - уровень мотивации и эффективность выполнения поставленной задачи. (При повышении мотивации эффективность выполнения задачи сначала возрастает, затем, при определённом уровне мотивации, достигается максимальная эффективность; но дальнейшему повышению мотивации сопутствует уже снижение эффективности.)
Для наглядной демонстрации примеров корреляции ниже приведены два графика: для случая линейной и нелинейной корреляции соответственно.
Определение направления связи
По направлению корреляционная связь может быть положительной (прямой) и отрицательной (обратной).
При положительной линейной корреляции более высоким значениям одного признака соответствуют более высокие значения другого, а более низким значениям одного признака - более низкие значения другого. При отрицательной корреляции соотношения обратные.
Знак коэффициента корреляции зависит от направления корреляционной связи: при положительной корреляции коэффициент корреляции имеет положительный знак, при отрицательной корреляции - отрицательный знак.
Измерение степени тесноты связи
При изучении корреляционной связи важным направлением анализа является оценка степени тесноты связи. Понятие степени тесноты связи между двумя признаками возникает вследствие того, что в действительности на изменение результативного признака влияет множество факторов. При этом влияние одного из факторов может выражаться более заметно и четко, чем влияние других факторов. С изменением условий роль решающего фактора может перейти к другому признаку.
При статистическом изучении взаимосвязей, как правило, учитываются только основные факторы. Также с учетом степени тесноты связи оценивается необходимость более подробного изучения конкретной данной связи и значение практического ее использования.
В общем, знание количественной оценки тесноты корреляционной связи позволяет решить следующую группу вопросов:
· необходимость глубокого изучения данной связи между признаками и целесообразность ее практического применения;
· степень различий в проявлении связи в конкретных условиях (сопоставление оценки тесноты связи для различных условий);
· выявление главных и второстепенных факторов в данных конкретных условиях путём последовательного рассмотрения и сравнения признака с различными факторами.
Показатели тесноты связи должны удовлетворять ряду основных требований:
· величина показателя тесноты связи должна быть равна или близка к нулю, если связь между изучаемыми признаками (процессами, явлениями) отсутствует;
· при наличии между изучаемыми признаками функциональной связи величина показателя тесноты связи должна быть равна единице;
· при наличии между признаками корреляционной связи абсолютное значение показателя тесноты связи должно выражаться правильной дробью, которая по величине тем больше, чем теснее связь между изучаемыми признаками (стремится к единице).
Корреляционная зависимость определяется различными параметрами, среди которых наибольшее распространение получили парные показатели, характеризующие взаимосвязь двух случайных величин: коэффициент ковариации (корреляционный момент) и линейный коэффициент корреляции (коэффициент корреляции Пирсона).
Сила связи определяется абсолютным значением показателя тесноты связи и не зависит от направления связи.
В зависимости от абсолютного значения коэффициента корреляции корреляционные связи между признаками по силе делятся следующим образом:
· сильная, или тесная (при );
· средняя (при );
· умеренная (при );
· слабая (при );
· очень слабая (при ).
Коэффициент ковариации
Корреляционный момент двух вариант и представляет собой математическое ожидание произведения отклонений случайных величин и вычисляется по исходным данным следующим образом:
,
где - математическое ожидание величины x.
Однако, для практического применения этот показатель не удобен. По его величине трудно судить о зависимости параметров, поскольку он имеет размерность, равную произведению размерностей вариант.
Коэффициент корреляции
Для устранения недостатка ковариации был введён линейный коэффициент корреляции (или коэффициент корреляции Пирсона).
Коэффициент корреляции Пирсона представляет собой коэффициент ковариации нормированных случайных величин и :
,
где и - среднеквадратические отклонения величин и ,
и - среднее значение выборок.
Значение коэффициента корреляции лежит в пределах от -1 до +1. Если случайные величины x, y независимы, то коэффициент корреляции обязательно равен нулю, обратное утверждение неверно.
Коэффициент корреляции характеризует значимость линейной связи между параметрами:
· при значения и полностью совпадают;
· при величины и принимают противоположные значения;
· при величины и практически не связаны друг с другом линейным соотношением. Однако это не означает отсутствия каких-то других (например, нелинейных) связей между параметрами;
· при однозначной линейной связи величин и нет, и чем меньше абсолютная величина коэффициента корреляции, тем в меньшей степени по значениям одного параметра можно предсказать значение другого.
В первых двух случаях имеет место функциональная зависимость: зная значение одного параметра, можно однозначно указать значение другого параметра.
Корреляционная матрица
Используя понятие коэффициента корреляции, матрице экспериментальных данных можно поставить в соответствие квадратную матрицу оценок коэффициентов корреляции (корреляционную матрицу). Её вид следующий:
Корреляционная матрица обладает следующими свойствами:
· элементы матрицы симметричны относительно главной диагонали, то есть , ;
· элементы главной диагонали равны единице, , .
Аналитическое выражение связи
Применение методов корреляционного анализа дает возможность выражать связь между признаками аналитически - в виде уравнения - и придавать ей количественное выражение. Допустим, что между некими признаками существует линейная связь, которая выражается уравнением прямой. Метод наименьших квадратов (МНК) позволяет найти это уравнение.
Метод заключается в том, чтобы для линейной или квазилинейной зависимости найти такое уравнение прямой , при котором расстояние опытной точки от этой прямой, измеренное по оси 0y, будет наименьшим по абсолютной величине, то есть условия метода можно записать в следующем виде:
Или, окончательно, в таком виде:
1)
2) .
Далее, необходимо отдельно найти значения четырёх сумм, подставить полученные значения в уравнения 1) и 2) и выразить коэффициенты и .
Заключение
При исследовании (или же проектировании) каких-либо систем преимущества имеют задачи с одним выходным параметром, но на практике приходится учитывать множество параметров и соответствующие связи между ними, число которых в реальных задачах велико.
Математические модели можно построить для каждого из параметров, но невозможно одновременно оптимизировать несколько функций. Поэтому обычно из многих выходных параметров в качестве параметра оптимизации выбирается один, наиболее важный с точки зрения цели исследования, а остальные служат ограничениями.
Исследование возможности уменьшения числа выходных параметров позволяет снять некоторые из таких ограничений. Для этих целей и используется корреляционный анализ.
Результаты корреляционного анализа могут дать существенную информацию об исследуемом объекте, а также подсказать и направление дальнейших исследований, и совокупность требуемых методов, в том числе статистических, необходимых для более полного изучения объекта.
В областях, где причины определённых явлений и их характеры ещё недостаточно изучены, целесообразно применение аппарата корреляционного анализа на стадии ранних исследований.
Корреляционный анализ находит применение в самых разных областях: от технических до социальных.
Список литературы
корреляционный анализ матрица
v Математическая статистика и теория вероятностей, ИСИТ САФУ http://isit.tariel.ru/msitv.
v Гмурман В.Е. Теория вероятностей и математическая статистика: Учебное пособие для вузов. -- 10-е издание, стереотипное. -- Москва: Высшая школа, 2004. -- 479 с.
v Андерсон Т., Введение в многомерный статистический анализ, http://ami.nstu.ru, 1963, 24 с.
v Елисеева И.И., Юзбашев М.М. Общая теория статистики: Учебник / Под ред. И.И. Елисеевой. -- 4-е издание, переработанное и дополненное. -- Москва: Финансы и Статистика, 2002. -- 480 с.
v Боровиков, В. STATISTICA. Искусство анализа данных на компьютере: Для профессионалов / В. Боровиков. -- СПб.: Питер, 2003. -- 688 с.
Размещено на Allbest.ru
Подобные документы
Задачи которые решает корреляционный анализ. Определение формы связи - установление математической формы, в которой выражается связь. Измерение тесноты, т.е. меры связи между признаками с целью установления степени влияния данного фактора на результат.
реферат [67,3 K], добавлен 09.11.2010Функциональные и корреляционные зависимости. Сущность корреляционной связи. Методы выявления наличия корреляционной связи между двумя признаками и измерение степени ее тесноты. Построение корреляционной таблицы. Уравнение регрессии и способы его расчета.
контрольная работа [55,2 K], добавлен 23.07.2009Показатели тесноты связи. Смысл коэффициентов регрессии и эластичности. Выявление наличия или отсутствия корреляционной связи между изучаемыми признаками. Расчет цепных абсолютных приростов, темпов роста абсолютного числа зарегистрированных преступлений.
контрольная работа [1,5 M], добавлен 02.02.2014Обработка и анализ статистической информации. Выборочная теория; интервальные оценки и графическое представление параметров распределения. Точечные оценки характеристик положения и мер изменчивости. Корреляционная зависимость; уравнение регрессии.
курсовая работа [1023,9 K], добавлен 21.03.2015Особенности нахождения связи между величинами (функциями). Понятие, сущность, свойства и характерные особенности дифференциальных уравнений, а также анализ их разрешимости. Характеристика и методика решения задачи Дидоны, ее графическое изображение.
курсовая работа [897,4 K], добавлен 02.04.2010Теоретико-множественная и геометрическая форма определения графов. Матрица смежностей вершин неориентированного и ориентированного графа. Элементы матрицы и их сумма. Свойства матрицы инцидентности и зависимость между ними. Подмножество столбцов.
реферат [81,0 K], добавлен 23.11.2008Понятие комплекса случайных величин, закона их распределения и вероятностной зависимости. Числовые характеристики случайных величин: математическое ожидание, момент, дисперсия и корреляционный момент. Показатель интенсивности связи между переменными.
курсовая работа [2,4 M], добавлен 07.02.2011Понятие и примеры шкалы отношений. Что такое стратифицированная (или расслоенная) выборка. Определение медианы и мощности критерия. Характеристика термина "процентиль". Влияние коэффициента корреляции на зависимость между исследуемыми величинами.
контрольная работа [51,0 K], добавлен 29.09.2010Предпосылки корреляционного анализа - математико-статистического метода выявления взаимозависимости компонентов многомерной случайной величины и оценки их связи. Точечные оценки параметров двумерного распределения. Аппроксимация уравнений регрессии.
контрольная работа [648,3 K], добавлен 03.04.2011Сущность, цели применения, основные достоинства метода канонических корреляций. Оценка тесноты связи между новыми каноническими переменными U и V. Максимальный канонический коэффициент корреляции, методика его расчета. Использование критерия Бартлетта.
презентация [109,2 K], добавлен 10.02.2015