Статистическое изучение взаимосвязи
Взаимосвязи общественных явлений, их виды и формы. Уравнение регрессии, определение его параметров. Определение тесноты корреляционной связи. Задачи изучения множественной связи. Анализ взаимосвязей качественных признаков. Ранговые показатели тесноты.
Рубрика | Экономико-математическое моделирование |
Вид | контрольная работа |
Язык | русский |
Дата добавления | 13.08.2010 |
Размер файла | 95,4 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Статистическое изучение взаимосвязи
План
1. Взаимосвязи общественных явлений, их виды и формы
2. Уравнение регрессии, определение его параметров
3. Определение тесноты корреляционной связи
4. Задачи изучения множественной связи
5. Анализ взаимосвязей качественных признаков
6. Ранговые показатели тесноты связи
Литература
1. Взаимосвязи общественных явлений, их виды и формы
Признаки, которыми характеризуются единицы совокупности, могут быть взаимосвязанными. Взаимосвязанные признаки выступают в одной из ролей:
§ роли признака-результата (аналог зависимой переменной Y в математике);
§ роли признака-фактора, значения которого определяют значение признака-результата (аналог независимой переменной X в математике).
Связи классифицируют по степени тесноты, направлению, форме, числу факторов.
По степени тесноты связи делят на статистические и функциональные.
Статистическая (стохастическая) связь -- это такая связь между признаками, при которой для каждого значения признака-фактора X признак-результат Y может в определенных пределах принимать любые значения с некоторыми вероятностями; при этом его статистические (массовые) характеристики (например, среднее значение) изменяются по определенному закону (рисунок 1).
Статистическая связь обусловлена:
1) влиянием на результативный признак не только фактора X, но и других факторов;
Рисунок 1 - Статистическая связь между признаками X и Y
2) неизбежностью ошибок измерения значений признаков (X и Y).
Модель стохастической связи может быть представлена в общем виде уравнением:
Y=f(X, и),
где Y -- фактическое значение результативного признака;
f(X) -- часть результативного признака, сформировавшаяся под воздействием фактора X (или множества факторов: Y =f(,...,);
и -- случайная составляющая, часть результативного признака, возникшая вследствие действия прочих (неучтенных) факторов, а также ошибок измерения признаков.
Например, уровень успеваемости студентов по статистике стохастически связана с целым комплексом факторов: склонностью к точным наукам; временем, затраченным на подготовку к предмету, состоянием здоровья студента и др. Полный перечень факторов неизвестен. Кроме того, неодинаково действие любого известного фактора на успеваемость каждого студента. Например, при одной и той же успеваемости разные студенты затрачивают неодинаковое время на подготовку. Кроме того, при одинаковых возможностях наблюдается вариация значений успеваемости студентов.
Корреляционная связь -- частный случай статистической связи. При корреляционной связи с изменением значения признака переднее значение признака Y закономерно изменяется, в то время как в каждом отдельном случае признак Y (с различными вероятностями) может принимать множество различных значений. Модель корреляционной связи: Е(Y\X) == f(Х) или Е(Y|, ,..., ) =f(,,...,), т - количество факторов, Е -- математическое ожидание.
Противоположностью статистической связи является функциональная.
Функциональная связь -- такая связь, когда каждому возможному значению признака-фактора X соответствует одно или несколько строго определенных значений результативного признака Y (рисунок 2). Она имеет место, когда все факторы, действующие на результативный признак, известны и учтены в модели и ошибки измерения отсутствуют.
Модель функциональной связи может быть представлена как:
Рисунок 2 - Функциональная связь между признаками X и Y
Чаще всего функциональные связи наблюдаются в явлениях, описываемых математикой, физикой и другими точными науками. Функциональные связи имеют место и в социально-экономических процессах, но довольно редко. Примером функциональной связи в экономике может служить связь между показателем фондовооруженности персонала -- Y и показателями стоимости основных производственных фондов -- X1 и численностью промышленно-производственного персонала -- Х2. Для любого предприятия наблюдается следующая зависимость между показателями: Y = Xt/X2.
По направлению связи делятся на прямые и обратные.
При прямой связи направление изменения результативного признака совпадает с направлением изменения признака-фактора.
При обратной связи направление изменения результативного признака противоположно направлению изменения признака-фактора.
Например, чем выше квалификация рабочего, тем выше уровень производительности его труда (прямая связь). Чем выше производительность труда, тем ниже себестоимость единицы продукции (обратная связь).
По форме связи (виду функции f) связи делят на линейные (прямолинейные) и нелинейные (криволинейные) связи.
Линейная связь отображается прямой линией; криволинейная -- кривой (параболой, гиперболой и т. п.). При линейной связи с возрастанием значения факторного признака происходит равномерное возрастание (убывание) значения результативного признака. При криволинейной связи с возрастанием значения факторного признака возрастание (убывание) результативного признака происходит неравномерно (гиперболическая форма связи) или же направление его изменения меняется на обратное (параболическая форма связи).
По количеству факторов, действующих на результативный признак, связи подразделяют на однофакторные (парные) и многофакторные связи.
Порядок изучения статистической связи.
Качественный (содержательный) анализ связи. На этом этапе определяется состав признаков, связь между которыми будет анализироваться. Здесь же производят предварительный анализ формы связи.
Сбор данных (статистическое наблюдение).
Количественная оценка тесноты связи по эмпирическим данным.
Если оценивается взаимосвязь качественных признаков, то данный этап является заключительным.
Если оценивается взаимосвязь количественных признаков, то подтверждение гипотезы о наличии взаимосвязи является основанием для перехода к этапу 4.
4. Установление аналитической зависимости между признаками (регрессионный анализ):
1) выбор формы связи (вида аналитического уравнения связи);
2) оценка параметров уравнения;
3) оценка адекватности аналитического уравнения связи эмпирическим данным (оценка качества уравнения).
4) оценка надежности уравнения (с использованием методов теории вероятности и математической статистики).
2. Уравнение регрессии, определение его параметров
Уравнение регрессии -- это уравнение, описывающее корреляционную зависимость между признаком-результатом Y и признаками факторами (одним или несколькими).
Наиболее часто для описания статистической связи признаков используется линейное уравнение регрессии. Внимание к линейной форме связи объясняется четкой экономической интерпретацией параметров линейного уравнения регрессии, ограниченной вариацией переменных и тем, что в большинстве случаев нелинейные формы связи для выполнения расчетов преобразуют (путем логарифмирования или замены переменных) в линейную форму. Линейное парное уравнение регрессии имеет вид
,
где n --объем совокупности (число наблюдений).
Оценки параметров линейной регрессии (а и b) могут быть найдены разными методами. Наиболее распространенным является метод наименьших квадратов (МНК).
МНК позволяет получить такие оценки параметров а и b, при которых сумма квадратов отклонений фактических значений результативного признака -- Y от расчетных (теоретических) значений -- (рассчитанных по уравнению регрессии) минимальна:
.
В случае линейной парной зависимости:
Значения Y и Y i=1, п нам известны, это данные наблюдений. В функции S они представляют собой константы. Переменными в данной функции являются искомые оценки параметров -- а и b. Чтобы найти минимум функции двух переменных, необходимо вычислить частные производные данной функции по каждому из параметров и приравнять их к нулю, т.е.
.
В результате получим систему из двух нормальных линейных уравнений:
.
Решая данную систему, найдем искомые оценки параметров:
.
Правильность расчета параметров уравнения регрессии может быть проверена сравнением сумм (возможно некоторое расхождение из-за округления расчетов).
Параметр b может быть рассчитан также через коэффициент корреляции:
.
Знак коэффициента регрессии b указывает направление связи (если b > О, то связь прямая, если b < О, то связь обратная). Величина b показывает, на сколько единиц изменится в среднем признак-результат Y при изменении признака-фактора X на 1 единицу своего измерения.
Формально значение параметра а -- среднее значение признака-результата Y при значении признака-фактора Х равном нулю. Если признак-фактор не имеет и не может иметь нулевого значения, то вышеуказанная трактовка параметра а не имеет смысла.
3. Определение тесноты корреляционной связи
Измерение тесноты и направления связи является важной задачей изучения и количественного измерения взаимосвязи социально-экономических явлений.
Теснота связи при линейной зависимости измеряется с помощью линейного коэффициента.
В статистической теории разработаны и на практике применяются различные модификации формул расчета данного коэффициента:
.
Произведя расчет по итоговым значениям исходных переменных, линейный коэффициент корреляции можно вычислить по формуле:
.
Линейный коэффициент корреляции может быть также выражен через дисперсии слагаемых:
.
Между линейным коэффициентом корреляции и коэффициентом существует определенная зависимость, которую можно математически выразить следующей формулой:
,
где - коэффициет регрессии в уравнении связи;
- среднее квадратическое отклонение соответствующего факторного признака.
Область допустимых значений линейного коэффициента корреляции от -1 до +1. Знаки коэффициентов регрессии и корреляции совпадают. При этом интерпретацию выходных значений коэффициента корреляции можно представить в таблице 1:
Таблица 1 - Оценка линейного коэффициента корреляции.
Значение линейного коэффициента связи |
Характер связи |
Интерпретация связи |
|
r = 0 |
Отсутствует |
||
0 < r < 1 |
Прямая |
С увеличением X увеличивается Y |
|
-1 < r < 0 |
Обратная |
С увеличением X уменьшается Y, и наоборот |
|
r = 1 |
Функциональная |
Каждому значению факторного признака строго соответствует одно значение результативного признака |
Значимость линейного коэффициента корреляции проверяется на основе t-критерия Стьюдента:
.
Если расчетное значение (табличное), то гипотеза отвергается, что свидетельствует о значимости линейного коэффициента корреляции, а следовательно, и о статистической зависимости между x и y.
4. Задачи изучения множественной связи
Парная регрессия может дать хороший результат при моделировании, если влиянием других факторов, воздействующих на результат, можно пренебречь. В экономике (в отличие от естественных наук) невозможно контролировать поведение большинства экономических факторов. Влияние данных факторов нужно учитывать в модели. То есть нужно построить уравнение, описывающее множественную связь:
Y=f(X1,X2,...,Xm,u),
где Y-- признак-результат;
X1, Х2,..., Хт -- признаки-факторы; и -- случайная составляющая.
Задачи анализа многофакторной зависимости:
сравнение степени влияния различных факторов на результат;
выделение прямого (непосредственного) влияния фактора на результат и косвенного (опосредованного) влияния фактора на результат (через другие факторы);
выявление существенности влияния данного фактора (или группы факторов) на результат на фоне других факторов (т. е. нельзя ли исключить из модели данный фактор без существенного ухудшения описания результирующей переменной).
Изобразим графически связи всех признаков для двухфакторной регрессии: Y=f(X1, Х2,и) (рисунок 3).
рямые связи
полные связи
косвенные (опосредованные) связи
Рисунок 3 - Граф связей модели: Y=f(X1, Х2)
Отбор факторов обычно осуществляется в два этапа.
Теоретический (содержательный) анализ взаимосвязи результата и факторов, оказывающих на него существенное влияние.
Количественная оценка (расчет соответствующих показателей) и анализ взаимосвязи факторов с результатом. При линейной форме связи между признаками данный этап сводится к анализу корреляционной матрицы (матрицы парных линейных коэффициентов корреляции).
Факторы, включаемые во множественную регрессию, должны отвечать следующим требованиям:
Они должны быть количественно измеримы. Если необходимо включить в модель качественный фактор, не имеющий количественного измерения, то ему нужно придать количественную определенность (например, в модели урожайности качество почвы задается в виде баллов).
Каждый фактор должен быть достаточно тесно связан с результатом (при линейной связи коэффициент парной корреляции фактора с результатом должен существенно отличаться от нуля).
Факторы не должны быть коррелированы друг с другом, тем более находиться в строгой функциональной связи (т.е. они не должны быть интеркоррелированы). Разновидностью интеркоррелированности факторов является мультиколлинеарность -- наличие высокой линейной связи между всеми или несколькими факторами.
Мультиколлинеарность может привести к нежелательным последствиям:
1) затрудняется интерпретация параметров множественной регрессии как характеристик действия факторов в «чистом» виде, ибо факторы коррелированы;
становится невозможным определить изолированное влияние факторов на результативный показатель;
оценки параметров уравнения множественной регрессии могут оказаться ненадежными.
Корреляционная матрица -- это квадратная матрица размером (т + 1; т + 1), где т -- число факторов в модели. Ее размер определяется числом признаков, участвующих в анализе: т признаков-факторов и один признак-результат.
Анализ корреляционной матрицы позволяет:
ранжировать факторы по степени их влияния на результат;
выявить мультиколлинеарные факторы.
Таким образом, анализ корреляционной матрицы позволяет решить вопрос о составе факторов в уравнении множественной регрессии.
Параметры уравнения линейной множественной регрессии:
У'= а +++ …+ (1)
можно определить:
1) методом наименьших квадратов, решив систему нормальных линейных уравнений:
(для решения данной системы можно воспользоваться, например, методом Гаусса (определителей));
2) через в-коэффициенты (параметры уравнения регрессии в стандартных масштабах):
, .
Коэффициент регрессии при факторе Xj в уравнении (1) называют условно-чистым коэффициентом регрессии. Он измеряет среднее по совокупности отклонение признака-результата от его средней величины при отклонении признака-фактора Xj на единицу, при условии, что все прочие факторы модели не изменяются (зафиксированы на своих средних уровнях).
Если не делать предположения о значениях прочих факторов, входящих в модель, то это означает, что каждый из них при изменении Xj может также изменяться (так как факторы (пусть и несильно) связаны между собой). Изменение прочих факторов модели вызовет изменение признака-результата. Таким образом, изменение признака-результата будет обусловлено изменением всех факторов модели, а не только интересующего нас фактора Xj.
Коэффициенты множественной детерминации и корреляции характеризуют совместное влияние всех факторов на результат. Кроме того, они используются как показатели качества уравнения множественной регрессии.
Коэффициент множественной детерминации -- это теоретический коэффициент детерминации -- для случая множественной регрессии. По аналогии с парной линейной регрессией он определяется как отношение дисперсии признака-результата, объясненной уравнением множественной регрессии -- д*2, к общей дисперсии признака-результата -- . Область допустимых значений-- от нуля до единицы. Данный показатель характеризует долю вариации признака-результата, объясненную уравнением регрессии (а следовательно, и факторами, включенными в данное уравнение), в общей вариации признака-результата.
Для линейного уравнения регрессии данный показатель может быть рассчитан через в-коэффициенты как:
.
Коэффициент множественной корреляции -- R рассчитывается как корень из коэффициента множественной детерминации:
.
Данный показатель аналогичен линейному парному коэффициенту корреляции -- , используемому в парном регрессионном анализе. Но, в отличие от него, может принимать значения только от нуля до единицы, следовательно, не может служить характеристикой направления связи. Чем плотнее фактические значения располагаются относительно линии регрессии, тем меньше остаточная дисперсия и, следовательно, больше величина . Таким образом, при значении , близком к единице, уравнение регрессии лучше описывает фактические данные и факторы сильнее влияют на результат; при значении , близком к 0, уравнение регрессии плохо описывает фактические данные и факторы оказывают слабое воздействие на результат.
5. Анализ взаимосвязей качественных признаков
Для определения тесноты связи двух качественных признаков, каждый из которых состоит только из двух групп, применяются коэффициенты ассоциации и контингенции. Для их вычисления строится таблица, которая показывает связь между двумя явлениями, каждое из которых должно быть альтернативным, т. е. состоящим из двух качественно отличных друг от друга значений признака (например, хороший, плохой) (таблица 2).
Таблица 2 - Таблица для вычисления коэффициентов ассоциации и контингенции.
a |
b |
a+b |
|
c |
d |
c+d |
|
a+c |
b+d |
a+b+ c+d |
Коэффициенты вычисляются по формулам:
ассоциации:
=;
контингенции:
=.
Коэффициент контингенции всегда меньше коэффициента ассоциации. Связь считается подтвержденной, если > 0,5 или > 0,3.
Когда каждый из качественных признаков состоит более чем из двух групп, то для определения тесноты связи возможно применение коэффициентов взаимной сопряженности Пирсона и Чупрова, которые вычисляются по следующим формулам:
= ; =,
где - показатель взаимной сопряженности;
- определяется как сумма отношений квадратов частот каждой клетки таблицы к произведению итоговых частот соответствующего столбца и строки минус 1:
= - 1,
- число значений (групп) первого признака;
- число значений (групп) второго признака.
Чем ближе величины и к 1, тем связь теснее.
Рассмотрим вспомогательную таблицу для расчета коэффициента взаимной сопряженности (таблица 3).
Таблица 3 - Вспомогательная таблица для расчета коэффициента взаимной сопряженности
y x |
I |
II |
III |
Всего |
|
I |
… |
… |
|||
II |
… |
… |
|||
III |
… |
… |
|||
Итого |
n |
1+= = .
В статистике существуют модификации коэффициента Пирсона, например через расчет -критерия. Коэффициент взаимной сопряженности (Кп) вычисляется по формуле
,
где - наиболее распространенный критерий согласия, используемый для проверки статистической гипотезы о виде распределения.
Другой модификацией коэффициента сопряженности Чупрова является
=,
- число строк в таблице;
- число граф в таблице;
n - число наблюдений.
Коэффициент Чупрова изменяется в пределах 0 < Кч < 1.
6. Ранговые показатели тесноты связи
В анализе социально-экономических явлений часто приходится прибегать к различным условиям оценкам с помощью рангов, а взаимосвязь между отдельными признаками измерять с помощью непараметрических коэффициентов связи.
Ранжирование - это процедура упорядочения объектов изучения, которая выполняется на основе предпочтения.
Ранг - это порядковый номер значений признака, расположенных в порядке возрастания или убывания их величин. Если отдельные значения признака имеют одинаковую количественную оценку, то ранг всех этих значений принимается равным средней арифметической от соответствующих номеров мест, которые определяют. Данные ранги называются связными.
Среди непараметрических методов оценки тесноты связи наибольшее значение имеют ранговые коэффициенты Спирмена (с) и Кендалла (ф). Эти коэффициенты могут быть использованы для определения тесноты связи как между количественными, так и между качественными признаками при условии, если их значения будут упорядочены или проранжированны по степени убывания или возрастания признака.
Коэффициент корреляции рангов (коэффициент Спирмена) рассчитывается по формуле (для случая, когда нет связных рангов):
= 1 - ,
где - квадраты разности рангов;
n - число наблюдений (число пар рангов).
Коэффициент Спирмена принимает любые значения в интервале . Значимость коэффициента корреляции рангов Спирмена проверяется на основе t-критерия Стьюдента. Расчетное значение критерия определяется по формуле:
.
Значение коэффициента корреляции считается статистически существенным, если .
Ранговый коэффициент корреляции Кендалла (ф) может также использоваться для измерения взаимосвязи между качественными и количественными признаками, характеризующие однородные объекты и ранжированные по одному принципу. Расчет Ранговый коэффициент корреляции Кендалла (ф) осуществляется по формуле:
,
где n - число наблюдений;
S - сумма разностей между числом последовательностей и числом инверсий по второму признаку.
Расчет данного коэффициента выполняется в следующей последовательности:
1) значения х ранжируются в порядке возрастания или убывания;
2) значения y ранжируются в порядке, соответствующем значениям x;
3) для каждого ранга y определяется число следующих за ним значений рангов, превышающих его величину. Суммируя таким образом числа, определяют величину P как меру соответствия последовательностей рангов по х и y. Она учитывается со знаком «плюс»;
4) для каждого ранга y определяется число следующих за ним рангов, меньших его величины. Суммарная величина обозначается через Q и фиксируется со знаком «минус»;
5) определяется сумма баллов по всем членам ряда.
Если в изучаемой совокупности есть связные ранги, то распределение необходимо проводить по следующей формуле:
,
где .
Для определения тесноты связи между произвольным числом ранжированных признаков применяется множественный коэффициент ранговой корреляции (коэффициент конкордации) W, который вычисляется по формуле:
,
где m - количество факторов;
n- число наблюдений;
S - отклонение суммы квадратов рангов от средней квадратов рангов.
В случае наличия связных рангов коэффициент конкордации определяется по формуле
,
где ;
t - количество связных рангов по отдельным показателям.
Проверка значимости осуществляется по формуле:
.
Коэффициент конкордации принимает любые значения в интервале .
Ранговые коэффициенты корреляции Спирмена, Кендалла и конкордации имеют преимущество, что с помощью их можно измерять и оценивать связи как между количествеными, так и между атрибутивными признаками, которые поддаются ранжированию.
Литература
1. Ильченко С. Математическая модель финансового состояния предприятия на основе системы балансовых уравнений. // Економіст: журнал. - 2009, №1.
2. Ковалев В.В. Анализ финансового состояния и прогнозирования банкротства. - СПБ: Аудит, 2004.
3. Хатнюк В.С. Основы статистики - К. 2005 - Алерта.
4. Основы статистического анализа - Савченко И. В. - М - 1999.
5. Статистика - под ред. Паламарчук В.Г. - К. 2000.
6. Статистика. - Ткачек В. Г. - М. - 2001.
Подобные документы
Понятие корреляционной связи. Связь между качественными признаками на основе таблиц сопряженности. Показатели тесноты связи между двумя количественными признаками. Определение коэффициентов уравнения линейной регрессии методом наименьших квадратов.
контрольная работа [418,7 K], добавлен 22.09.2010Параметры парной линейной, линейно-логарифмической функции. Оценка статистической надёжности. Ошибка положения регрессии. Расчёт бета коэффициентов, уравнение множественной регрессии в стандартизованном масштабе. Задача на определение тесноты связи рядов.
контрольная работа [192,2 K], добавлен 23.06.2012Построение корреляционного поля зависимости между y и x1, определение формы и направления связи. Построение двухфакторного уравнения регрессии y, x1, x2, оценка показателей тесноты связи. Оценка модели через F-критерий Фишера и t-критерий Стьюдента.
лабораторная работа [1,0 M], добавлен 23.01.2011Степень тесноты и характера направления зависимости между признаками. Парная линейная корреляционная зависимость, ее корреляционно-регрессионный анализ. Исследование связи между одним признаком-фактором и одним признаком-результатом, шкала Чеддока.
методичка [75,0 K], добавлен 15.11.2010Расчет параметров уравнения линейной регрессии, оценка тесноты связи с помощью показателей корреляции и детерминации. Определение средней ошибки аппроксимации. Статистическая надежность моделирования с помощью F-критерия Фишера и t-критерия Стьюдента.
контрольная работа [58,3 K], добавлен 17.10.2009Использование метода оценки параметров в стандартных масштабах для определения неизвестных параметров линейной модели множественной регрессии. Специфика изучения взаимосвязей по временным рядам. Моделирование взаимосвязей и тенденций в финансовой сфере.
контрольная работа [326,7 K], добавлен 22.04.2016Построение поля корреляции и формулирование гипотезы о форме связи. Параметры уравнений линейной, степенной и гиперболической регрессии. Оценка тесноты связи с помощью показателей корреляции и детерминации. Оценка средней ошибки аппроксимации уравнения.
контрольная работа [136,3 K], добавлен 25.09.2014Поиск несмещенных оценок математического ожидания и для дисперсии X и Y. Расчет выборочного коэффициента корреляции, анализ степени тесноты связи между X и Y. Проверка гипотезы о силе линейной связи между X и Y, о значении параметров линейной регрессии.
контрольная работа [19,2 K], добавлен 25.12.2010Построение уравнения регрессии. Эластичность степенной модели. Уравнение равносторонней гиперболы. Оценка тесноты связи, качества и точности модели. Индекс корреляции и коэффициент детерминации. Оценка статистической значимости регрессионных уравнений.
курсовая работа [1,3 M], добавлен 25.03.2015Расчет параметров линейной регрессии. Сравнительная оценка тесноты связи с помощью показателей корреляции, детерминации, коэффициента эластичности. Построение поля корреляции. Определение статистической надежности результатов регрессионного моделирования.
контрольная работа [71,7 K], добавлен 17.09.2016