Теория статистики
Этапы статистического исследования. Понятие выборочного наблюдения, отбор единиц в выборочную совокупность. Процесс формирования случайных чисел. Многомерные группировки в статистике, измерения вариации. Правила построения, структура рядов динамики.
Рубрика | Экономика и экономическая теория |
Вид | курс лекций |
Язык | русский |
Дата добавления | 26.01.2011 |
Размер файла | 489,9 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Прирос1 |
г валового дохода за |
счет |
|||
Вид кредита |
изменения объема задолженности |
перераспределения задолженности по видам кредита |
изменения процентной ставки |
Всего |
|
Краткосрочный Долгосрочный |
6,185 0,579 |
- 4,468 1,642 |
0,883 0,219 |
2,60 2,44 |
|
Итого |
6,764 |
- 2,826 |
1,102 |
5,04 |
6.6 Индексы средних величин
При изучении совокупностей, состоящих из объектов одного и того же типа, общий индекс изменения итогового признака можно, как показано выше, представить произведением трех индексов:
Индекс 1^ можно записать как
EW, * Т, SW, * d,
Теперь индексная модель примет вид
_ ЕТ, ЈW„-d, ЈW,.d, ЈT, W,
ЈT„ Јw„.d„ Јw„.d, ST„ W„
или iq = i^t * l„.
Отношение двух средних величин называется в статистике индексом переменного состава. Индекс переменного состава учитывает одновременно и структурные изменения в составе совокупности, и изменение уровня качественного признака у отдельных объектов. В этом смысле рассчитанный ранее индекс 1^ (полученный по типу индекса цен) называется индексом постоянного, или фиксированного, состава. Очевидно, что между индексом переменного состава и индексом постоянного состава существует соотношение пер сост стр пост.сост (в нашем примере -- это 1да = I * 1^).
Представление индекса переменного состава произведением двух сопряженных индексов позволяет выяснить роль соответствующих факторов в изменении общего среднего уровня качественного показателя. Так, в примере 1 средний уровень выработки в связи с перераспределением работающих изменился в 0,9956 раза, или на 24,264586 * (0,9956 - 1 )= - 0,107 тыс.руб./чел., а за счет роста производительности труда на предприятиях средний уровень выработки увеличился в 1,01008 раза, или на 24,26458,- 0,9956086 * (1,01008 - 1) =+ 0,244 тыс.руб./ч.
В целом средний уровень выработки повысился в 1,00564 раза, или на 0,137 тыс.руб./чел., что подтверждается и непосредственным расчетом: 24,4016 - 24,2646 =0,137 тыс. руб./чел.
Анализ общего прироста итога можно теперь выполнить и по модели Q, = Од * 1^. * 1^, но ничего нового по сравнению с ранее полученными результатами этот подход уже не дает.
6.7 Территориальные индексы
Территориальные индексы -- это разновидность относительных величин сравнения, когда сопоставляются сложные показатели, относящиеся к одному и тому же периоду времени, но к разным территориям (городам, районам, областям, государствам). На основе территориальных индексов выполняются международные сопоставления.
Построение простейших территориальных индексов рассмотрим на примере показателя товарооборота для двух районов («А» и «Б»).
Территориальный индекс товарооборота -- это отношение суммы выручки от продажи в одном из районов к аналогичному показателю в другом. Один из районов (например, «Б») берется за базу сравнения, т. е.
Различие объемов товарооборота вызвано различием ассортимента и количества проданных товаров, а также цен. Территориальный индекс физического объема товарооборота рассчитывается как
Јp *q.
*qA/Б
sp -об
Территориальный индекс цен
Јp. *q
*рА/Б
Рв *q В этих формулах р -- средняя межрайонная цена товара
каждого вида,
р = (Рд -q^ + Pg -qg) / (Чд + qg); Ч = (ча + Чв) -- суммарный по двум районам объем продаж каждого вида товара. Более сложные, чем ранее, взвешивающие показатели применяются для того, чтобы результаты расчета были обратимыми, т. е. чтобы выполнялись соотношения=1/
q.A/Б ' ' "ЧБ/А " "р.А/Б '/ "р.Б/А-
Заметим, однако, что условия индексной модели
q Б/А 'р Б/А -- 'Q Б/А
могут нарушаться, хотя, как правило, и не очень существенно.
Использование таких территориальных индексов для анализа абсолютной разницы товарооборотов дает в какой-то мере приближенный результат. Методика расчета и применения территориальных индексов нуждается в дальнейшей разработке.
В заключение следует заметить, что при распределении прироста итогового показателя по нескольким факторам динамики предварительно определяют последовательность, очередность соответствующих индексов в мультипликативной индексной модели. Если имеется F факторов (индексов), то классическая схема анализа, когда предполагается последовательное изменение итогового показателя сначала за счет сугубо количественного, а затем за счет все более и более качественных факторов, представляет лишь один из возможных вариантов очередности влияния факторов. Всего таких вариантов будет, очевидно, F!, и при отсутствии информации о фактической динамике явления, когда и индексы, и величина итогового признака становятся известными лишь по конечному результату всего периода, любая последовательность влияния факторов в мультипликативной индексной схеме оказывается равновероятной. В этом отношении исследователь вправе выбрать для анализа любую в наибольшей степени отражающую реальность схему очередности факторов. В условиях же полной неопределенности следует ориентироваться на так называемые равновероятностные схемы индексного анализа. Рассмотрение их выходит за пределы данного курса.
Глава 7. СТАТИСТИЧЕСКОЕ ИЗУЧЕНИЕ ВЗАИМОСВЯЗЕЙ
7.1 Основные понятия корреляционного и регрессионного анализа
Исследуя природу, общество, экономику, необходимо считаться со взаимосвязью наблюдаемых процессов и явлений. При этом полнота описания так или иначе определяется количественными характеристиками причинно-следственных связей между ними. Оценка наиболее существенных из них, а также воздействия одних факторов на другие является одной из основных задач статистики.
Формы проявления взаимосвязей весьма разнообразны. В качестве двух самых общих их видов выделяют функциональную (полную) и корреляционную (неполную) связи. В первом случае величине факторного признака строго соответствует одно или несколько значений функции. Достаточно часто функциональная связь проявляется в физике, химии. В экономике примером может служить прямо пропорциональная зависимость между производительностью труда и увеличением производства продукции.
Корреляционная связь (которую также называют неполной, или статистической) проявляется в среднем, для массовых наблюдений, когда заданным значениям зависимой переменной соответствует некоторый ряд вероятных значений независимой переменной. Объяснение тому--сложность взаимосвязей между анализируемыми факторами, на взаимодействие которых влияют неучтенные случайные величины. Поэтому связь между признаками проявляется лишь в среднем, в массе случаев. При корреляционной связи каждому значению аргумента соответствуют случайно распределенные в некотором интервале значения функции.
Например, некоторое увеличение аргумента повлечет за собой лишь среднее увеличение или уменьшение (в зависимости от направленности) функции, тогда как конкретные значения у отдельных единиц наблюдения будут отличаться от среднего. Такие зависимости встречаются повсеместно. Например, в сельском хозяйстве это может быть связь между урожайностью и количеством внесенных удобрений. Очевидно, что последние участвуют в формировании урожая. Но для каждого конкретного поля, участка одно и то же количество внесенных удобрений вызовет разный прирост урожайности, так как во взаимодействии находится еще целый ряд факторов (погода, состояние почвы и др.), которые и формируют конечный результат. Однако в среднем такая связь наблюдается --увеличение массы внесенных удобрений ведет к росту урожайности.
По направлению связи бывают прямыми, когда зависимая переменная растет с увеличением факторного признака, и обратными, при которых рост последнего сопровождается уменьшением функции. Такие связи также можно назвать соответственно положительными и отрицательными.
Относительно своей аналитической ф о р м ы связи бывают линейными и нелинейными. В первом случае между признаками в среднем проявляются линейные соотношения. Нелинейная взаимосвязь выражается нелинейной функцией, а переменные связаны между собой в среднем нелинейно.
Существует еще одна достаточно важная характеристика связей с точки зрения взаимодействующих факторов. Если характеризуется связь двух признаков, то ее принято называть парной. Если изучаются более чем две переменные -- множественной.
Указанные выше классификационные признаки наиболее часто встречаются в статистическом анализе. Но кроме перечисленных различают также непосредственные, косвенные и ложные связи. Собственно, суть каждой из них очевидна из названия. В первом случае факторы взаимодействуют между собой непосредственно. Для косвенной связи характерно участие какой-то третьей переменной, которая опосредует связь между изучаемыми признаками. Ложная связь -- это связь, установленная формально и, как правило, подтвержденная только количественными оценками. Она не имеет под собой качественной основы или же бессмысленна.
По силе различаются слабые и сильные связи. Эта формальная характеристика выражается конкретными величинами и интерпретируется в соответствии с общепринятыми критериями силы связи для конкретных показателей.
В наиболее общем виде задача статистики в области изучения взаимосвязей состоит в количественной оценке их наличия и направления, а также характеристике силы и формы влияния одних факторов на другие. Для ее решения применяются две группы методов, одна из которых включает в себя методы корреляционного анализа, а другая -- регрессионный анализ. В то же время ряд исследователей объединяет эти методы в корреляционно-регрессионный анализ, что имеет под собой некоторые основания: наличие целого ряда общих вычислительных процедур, взаимодополнения при интерпретации результатов и др.
Поэтому в данном контексте можно говорить о корреляционном анализе в широком смысле -- когда всесторонне характеризуется взаимосвязь. В то же время выделяют корреляционный анализ в узком смысле -- когда исследуется сила связи -- и регрессионный анализ, в ходе которого оцениваются ее форма и воздействие одних факторов на другие.
Задачи собственно корреляционного анализа сводятся к измерению тесноты связи между варьирующими признаками, определению неизвестных причинных связей и оценке факторов, оказывающих наибольшее влияние на результативный признак.
Задачи регрессионного анализа лежат в сфере установления формы зависимости, определения функции регрессии, использования уравнения для оценки неизвестных значений зависимой переменной.
Решение названных задач опирается на соответствующие приемы, алгоритмы, показатели, применение которых дает основание говорить о статистическом изучении взаимосвязей.
Следует заметить, что традиционные методы корреляции и регрессии широко представлены в разного рода статистических пакетах программ для ЭВМ. Исследователю остается только правильно подготовить информацию, выбрать удовлетворяющий требованиям анализа пакет программ и быть готовым к интерпретации полученных результатов. Алгоритмов вычисления параметров связи существует множество, и в настоящее время вряд ли целесообразно проводить такой сложный вид анализа вручную. Вычислительные процедуры представляют самостоятельный интерес, но знание принципов изучения взаимосвязей, возможностей и ограничений тех или иных методов интерпретации результатов является обязательным условием исследования.
Методы оценки тесноты связи подразделяются на корреляционные (параметрические) и непараметрические. Параметрические методы основаны на использовании, как правило, оценок нормального распределения и применяются в случаях, когда изучаемая совокупность состоит из величин, которые подчиняются закону нормального распределения. На практике это положение чаще всего принимается априори. Собственно, эти методы--параметрические--и принято называть корреляционными.
Непараметрические методы не накладывают ограничений на закон распределения изучаемых величин. Их преимуществом является и простота вычислений.
7.2 Парная корреляция и парная линейная регрессия
Простейшим приемом выявления связи между двумя признаками является построение корреляционной таблицы'.
В основу группировки положены два изучаемых во взаимосвязи признака--Х и У. Частоты f показывают количество соответствующих сочетаний Х и У. Если f расположены в таблице беспорядочно, можно говорить об отсутствии связи между переменными. В случае образования какого-либо характерного сочетания t допустимо утверждать о связи между Х и У. При этом, если f концентрируются около одной из двух диагоналей, имеет место прямая или обратная линейная связь.
Наглядным изображением корреляционной таблицы служит корреляционное поле. Оно представляет собой график, где на оси абсцисс откладываются значения X, по оси ординат -- У, а точками показывается сочетание Х и У. По расположению точек, их концентрации в определенном направлении можно судить о наличии связи.
В итогах корреляционной таблицы по строкам и столбцам приводятся два распределения -- одно по X, другое по У. Рассчитаем для каждого X, среднее значение У, т. е. У,, как
z z
y,=Јy,f„/Јf„,i=1,2,...,k.
j=1 j=1
Последовательность точек (X,, У,) дает график, который иллюстрирует зависимость среднего значения результативного признака У от факторного X, -- эмпирическую линию регрессии, наглядно показывающую, как изменяется У по мере изменения X.
По существу, и корреляционная таблица, и корреляционное поле, и эмпирическая линия регрессии предварительно уже характеризуют взаимосвязь, когда выбраны факторный и результативный признаки и требуется сформулировать предположения о форме и направленности связи. В то же время количественная оценка тесноты связи требует дополнительных расчетов.
Практически для количественной оценки тесноты связи широко используют линейный коэффициент корреляции. Иногда его называют просто коэффициентом корреляции. Если заданы значения переменных Х и У, то он вычисляется по формуле
ХУ-Х * У
ух
О. * СТу
Можно использовать и другие формулы, но результат должен быть одинаковым для всех вариантов расчета.
Коэффициент корреляции принимает значения в интервале от - 1 до + 1. Принято считать, что если | г] < 0,30, то связь слабая;
при |г| = (0,3 + 0,7) -- средняя; при |г| > 0,70 -- сильная, или тесная. Когда |г| =1 -- связь функциональная.Если же r ° 0, то это дает основание говорить об отсутствии линейной связи между У и X. Однако в этом случае возможно нелинейное взаимодействие, что требует дополнительной проверки и других измерителей, рассматриваемых ниже.
Для характеристики влияния изменений Х на вариацию У служат методы регрессионного анализа. В случае парной линейной зависимости строится регрессионная модель
У,=а„+а, *Х+е,. i= 1, .... n,
где n -- число наблюдений;
а„, а, -- неизвестные параметры уравнения;
Е, -- ошибка случайной переменной У. Уравнение регрессии записывается как
У, = а^ + а, X,,
Ireop U 1 I
где У„^-- рассчитанное выравненное значение результативного признака после подстановки в уравнение X.
Параметры а„ и а, оцениваются с помощью процедур, наибольшее распространение из которых получил метод наименьших квадратов. Его суть заключается в том, что наилучшие оценки а„ и а, получают, когда
n Х(У,-У, )2=m^n,
т. е. сумма квадратов отклонений эмпирических значений зависимой переменной от вычисленных по уравнению регрессии должна быть минимальной. Сумма квадратов отклонений является функцией параметров ад и а,. Ее минимизация осуществляется решением системы уравнений
па„ + а,ЕХ = 1У;
a„SX + a,Јx2 = ЕХУ.
Можно воспользоваться и другими формулами, вытекающими из метода наименьших квадратов, например:
Z(X, - X) (У, - У) ^
а, = -------------------- или а, - r„, ------ ,
Ј(X, - X)2 <7„
а„ = У - а,Х.
Аппарат линейной регрессии достаточно хорошо разработан и, как правило, имеется в наборе стандартных программ оценки взаимосвязи для ЭВМ. Важен смысл параметров: а, -- это коэффициент регрессии, характеризующий влияние, которое оказывает изменение Х на У. Он показывает, на сколько единиц в среднем изменится У при изменении Х на одну единицу. Если а, больше 0, то наблюдается положительная связь. Если а, имеет отрицательное значение, то увеличение Х на единицу влечет за собой уменьшение У в среднем на а,. Параметр а, обладает размерностью отношения У к X.
Параметр а„ -- это постоянная величина в уравнении регрессии. На наш взгляд, экономического смысла он не имеет, но в ряде случаев его интерпретируют как начальное значение У.
Например, по данным о стоимости оборудования Х и производительности труда У методом наименьших квадратов получено уравнение
У=- 12,14+2.08Х.
Коэффициент а, означает, что увеличение стоимости оборудования на 1 млн руб. ведет в среднем к росту производительности труда на 2,08 тыс. руб.
Значение функции У = а„ + а,Х называется расчетным значением и на графике образует теоретическую линию регрессии.
Смысл теоретической регрессии в том, что это оценка среднего значения переменной У для заданного значения X.
7.3 Множественная линейная регрессия
Парная корреляция или парная регрессия могут рассматриваться как частный случай отражения связи некоторой зависимой переменной, с одной стороны, и одной из множества независимых переменных -- с другой. Когда же требуется охарактеризовать связь всего указанного множества независимых переменных с результативным признаком, говорят о множественной корреляции или множественной регрессии.
Рассмотрим вопрос о регрессии. В ряде случаев именно от его решения -- оценки уравнений регрессии -- зависят оценки тесноты связи, а они, в свою очередь, дополняют результаты регрессионного анализа. Прежде всего следует определить перечень независимых переменных X, включаемых в уравнение. Это должно делаться на основе теоретических положений. Список Х может быть достаточно широк и ограничен только исходной информацией. На практике теоретические положения о сути взаимосвязи подкрепляются парными коэффициентами корреляции между зависимой и независимыми переменными. Отбор наиболее значимых из них можно провести с помощью ЭВМ, выбирая в соответствии с коэффициентами корреляции и другими критериями факторы, наиболее тесно связанные с У. Параллельно решается вопрос о форме уравнения. Современные средства вычислительной техники позволяют за относительно короткое время рассчитать достаточно много вариантов уравнений. В ЭВМ вводятся значения зависимой переменной У и матрица независимых переменных X, принимается форма уравнения, например линейная. Ставится задача включить в уравнение k наиболее значимых X. В результате получим уравнение регрессии с k наиболее значимыми факторами. Аналогично можно выбрать наилучшую форму связи. Этот традиционный прием, называемый пошаговой регрессией, если он не противоречит качественным посылкам, достигает приемлемых результатов. Первоначально обычно берется линейная модель множественной регрессии
У,=ао+а,Х„+а,Х„+...+аЛ+Е или -- в форме уравнения регрессии -- 134
Утеор = а„ + а,Х, + а,Х, + ... + а,Х,, где У^д -- расчетное значение регрессии, которое представляет собой оценку ожидаемого значения У при фиксированных значениях переменных X,, Ху .... \; *
а,, а;,, ..., а^-- коэффициенты регрессии, каждый из которых показывает, на сколько единиц изменится У с изменением соответствующего признака Х на единицу при условии, что остальные признаки останутся на прежнем уровне.
Параметры уравнения множественной регрессии, как правило, находятся методом наименьших квадратов. В матричной записи система уравнений имеет вид
(Х^)- A=XTУ,
^Х„,...Х„у \У,
Оценка параметров множественной регрессии вручную затруднительна, приводит к потерям точности и может лишь удовлетворить любопытство. Получение же оценок параметров на ЭВМ в настоящее время не представляет большой проблемы. Гораздо важнее, насколько линейная форма связи соответствует реально существующей зависимости между У, с одной стороны, и множеством Х -- с другой.
7.4 Нелинейная регрессия. Коэффициенты эластичности
Представление связи через линейную функцию там, где на самом деле существуют нелинейные соотношения, вызовет ошибки аппроксимации и в конечном итоге упрощенные или даже ложные положения и выводы на основе аналитического уравнения.
Вопрос о нелинейности формы уравнения следует решать на стадии теоретического анализа. Как правило, анализ должен опираться на суть взаимодействия изучаемых явлений и процессов и формально подкрепляться различного рода статистическими критериями. Но на практике допускается и другое решение -- нелинейность формулируется как гипотеза и очерчивается лишь круг возможных уравнений, а затем форма и вид уравнения уточняются на ЭВМ. Существуют разные формы нелинейных уравнений регрессии, но в общем виде можно выделить два их класса.
К первому отнесем регрессии нелинейные относительно включенных в исследование переменных, но линейные по параметрам. Это, например, полиномы. В случае парной регрессии имеем уравнения
У= а„ + а,Х + а;,Х2 + ВзХ3 + ... .
Множественная регрессия У = f(X,, Хд) по аналогии выглядит
как
У = ао + а,Х, + а,Х2 + а^ + ... + b,X, + b^Xj + Ь^ + ... + + c,X,X^ + с;,Х,Х2 + СдХ2 X, + ... .
Возможно применение гиперболы, других функций. При желании с помощью стандартных программ для ЭВМ может быть образовано любое нелинейное сочетание переменных, линейных относительно коэффициентов уравнения. Последние оцениваются с помощью метода наименьших квадратов.
Второй класс нелинейных функций отличается нелинейностью по оцениваемым параметрам. Таких уравнений также существует множество. Наиболее распространена степенная функция вида
У = ВдХ"' (парная регрессия)
либо У = ад X^'X^32 Хз"3 ... (множественная регрессия).
Даже по приведенным примерам можно составить представление о широком спектре возможных аналитических представлений нелинейной формы связи. Ограничивает их использование сложность процедур оценивания параметров уравнений. Это подчас требует специальных приемов, алгоритмов, программ для ЭВМ,
Относительно просто решается такая задача для функций, преобразуемых к линейному виду. Например, степенную функцию можно прологарифмировать, получив линейную зависимость У от Х в логарифмах, и применить для оценки параметров уже упоминавшийся метод наименьших квадратов. Однако надо иметь в виду, что при этом оценивается не сама нелинейная функция, но ее линейное преобразование, а это может вызвать смещение оценок параметров.
Интерпретация коэффициента регрессии как углового коэффициента в линейном уравнении для нелинейной зависимости не годится. Определить изменение У при изменении Х на единицу можно с помощью производной (простой или частной), взятой по соответствующему фактору X. Так, для степенного уравнения У = ВдХ3' производная по Х равна
аУ
f(X)=-----a^X-1.-' . dX
Видно, что она является величиной переменной, а это усложняет экономическую интерпретацию результатов.
Чаще всего для характеристики влияния изменения Х на У используют так называемый коэффициент эластичности (Э), который показывает, на сколько процентов изменится У при изменении Х на один процент, т. е.
Х Х
= ИХ)
dX У У
Например, для линейного уравнения коэффициент эластичности фактора Х выглядит как
а.Х а.Х
У а„ + а,Х
Для парной степенной функции У = а„ X3' коэффициент эластичности Х равен а,.
Коэффициенты эластичности -- это, собственно, относительные величины. Их использование расширяет возможности сопоставления, экономической интерпретации результатов в дополнение к абсолютным величинам -- коэффициентам регрессии.
7.5 Множественная корреляция
Оценки тесноты связи (корреляции) могут играть двоякую роль. Это -- самостоятельные характеристики, дающие представление и о взаимодействии изучаемых факторов, и об аппроксимации фактических данных аналитической функцией. Поэтому расчет показателей множественной корреляции предполагает оценку уравнений регрессии.
При оценке линейной множественной связи рассчитывают коэффициент множественной корреляции. По смыслу он отражает тесноту 'связи между вариацией зависимой переменной и вариациями всех включенных в анализ независимых переменных. Обычно сначала строится линейная множественная регрессия, а затем оценивается сам коэффициент.
Наиболее общие формулы для его определения имеют следующий вид:
Ј (У, -У)2
i=i
Ј (У, - У)2
где о2 -- общая дисперсия фактических данных результативного признака (дисперсия У);
ст2, -- остаточная дисперсия, характеризующая вариацию У за счет факторов, не включенных в уравнение регрессии.
Коэффициент множественной корреляции изменяется от О до 1. Чем ближе R к 1, тем более сильная связь между У и множеством X. Эта же оценка R используется и как мера точности аппроксимации фактических данных выравненным. Если R незначительно по величине (как правило, R < 0,3), то можно утверждать, что либо не все важнейшие факторы взаимосвязи учтены, либо выбрана неподходящая форма уравнения. В этом случае следует пересмотреть список переменных модели, а возможно, и сам ее вид.
Для нелинейной множественной связи рассчитывают индекс корреляции. Форма и процедура его вычисления аналогичны указанным выше, только взаимодействие факторов аппроксимируется нелинейной функцией. Он также изменяется в пределах от 0 до 1. На практике, как правило, используется одно название -- коэффициент множественной корреляции.
Квадрат R равен так называемому коэффициенту детерминации (D или R2). Он показывает, какая часть вариации зависимого признака объясняется включенными в модель факторами.
7.6 Оценка значимости параметров взаимосвязи
Получив оценки корреляции и регрессии, необходимо проверить их на соответствие истинным параметрам взаимосвязи.
Существующие программы для ЭВМ включают, как правило, несколько наиболее распространенных критериев. Для оценки значимости коэффициента парной корреляции рассчитывают стандартную ошибку коэффициента корреляции:
ст.,
п- 2
В первом приближении нужно, чтобы о^, < г^. Значимость г^ проверяется его сопоставлением с о,„, при этом получают
n - 2
расч х
где t -- так называемое расчетное значение t-критерия.
Если t больше теоретического (табличного) значения критерия Сть'юдента (t^g„) для заданного уровня вероятности и (п - 2) степеней свободы, то можно утверждать, что г^ значимо.
Подобным же образом на основе соответствующих формул рассчитывают стандартные ошибки параметров уравнения регрессии, а затем и t-критерии для каждого параметра. Важно опять-таки проверить, чтобы соблюдалось условие t ^ > t^. В противном случае доверять полученной оценке параметра нет оснований.
Вывод о правильности выбора вида взаимосвязи и характеристику значимости всего уравнения регрессии получают с помощью F-критерия, вычисляя его расчетное значение:
R2 (п - т)
(1 -ргХт- 1) где п -- число наблюдений;
т -- число параметров уравнения регрессии. ^расч также должно быть больше F^ при v, = (m - 1) и Vg = (n - т) степенях свободы. В противном случае следует пересмотреть форму уравнения, перечень переменных и т. д.
7.7 Непараметрические методы оценки связи
Методы корреляционного и дисперсионного анализа не универсальны: их можно применять, если все изучаемые признаки являются количественными. При использовании этих методов нельзя обойтись без вычисления основных параметров распределения (средних величин, дисперсий), поэтому они получили название параметрических методов.
Между тем в статистической практике приходится сталкиваться с задачами измерения связи между качественными признаками, к которым параметрические методы анализа в их обычном виде неприменимы. Статистической наукой разработаны методы, с помощью которых можно измерить связь между явлениями, не используя при этом количественные значения признака, а значит, и параметры распределения. Такие методы получили название непараметрических.
Если изучается взаимосвязь двух качественных признаков, то используют комбинационное распределение единиц совокупности в форме так называемых таблиц взаимной сопряженности.
Рассмотрим методику анализа таблиц взаимной сопряженности на конкретном примере социальной мобильности как процесса преодоления замкнутости отдельных социальных и профессиональных групп населения. Ниже приведены данные о распределении выпускников средних школ по сферам занятости с выделением аналогичных общественных групп их родителей.
4i |
исло детей |
, занятых |
в |
|||
Занятия родителей |
промышленности и строительстве |
сельском хозяйстве |
сфере обслуживания |
сфере интеллектуального труда |
Всего |
|
1. Промышленность и строительство 2. Сельское хозяйство 3. Сфера обслуживания 4. Сфера интеллектуального труда |
40 34 16 24 |
5 29 6 5 |
7 13 15 9 |
39 12 19 72 |
91 88 56 110 |
|
Scero |
114 |
45 |
44 |
142 |
345 |
Распределение частот по строкам и столбцам таблицы взаимной сопряженности позволяет выявить основные закономерности социальной мобильности: 42,9 % детей родителей группы 1 («Промышленность и строительство») заняты в сфере интеллектуального труда (39 из 91); 38,9 % детей, родители которых трудятся в сельском хозяйстве, работают в промышленности (34 из 88) и т. д.
Можно заметить и явную наследственность в передаче профессий. Так, из пришедших в сельское хозяйство 29 человек, или 64,4 %, являются детьми работников сельского хозяйства;
более чем у 50 % в сфере интеллектуального труда родители относятся к той же социальной группе и т. д.
Однако важно получить обобщающий показатель, характеризующий тесноту связи между признаками и позволяющий сравнить проявление связи в разных совокупностях. Для этой цели исчисляют, например, коэффициенты взаимной сопряженности Пирсона (С) и Чупрова (К):
где ф2 -- показатель средней квадратической сопряженности, определяемый путем вычитания единицы из суммы отношений квадратов частот каждой клетки корреляционной таблицы к произведению частот соответствующего столбца и строки:
К, и Кд -- число групп по каждому из признаков. Величина коэффициента взаимной сопряженности, отражающая тесноту связи между качественными признаками, колеблется в обычных для этих показателей пределах от 0 до 1.
Чис |
ло дете |
и, занятых |
< в |
||||
Занятия родителей |
промышленности и строительстве |
сельском хозяйстве |
сфере обслуживания |
сфере интеллектуального труда |
Всего |
f,2 ' ^1 |
|
А |
1 |
2 |
3 |
4 |
5 |
6 |
|
1. Промышленность и строительство |
40 1600 14,04 |
5 25 0,56 |
7 49 1,11 |
39 1521 10,71 |
91 26,42 |
0,2903 |
|
2. Сельское хозяйство |
34 1156 10.14 |
29 841 18,69 |
13 169 3,84 |
12 144 1,01 |
88 33,68 |
0,3827 |
|
3. Сфера обслуживания |
16 256 2,25 |
6 36 0.8 |
15 225 5,11 |
19 361 2,54 |
56 10,7 |
0,1911 |
|
4. Сфера интеллектуального труда |
24 576 5,05 |
5 25 0,56 |
9 81 1,84 |
72 5184 36,51 |
110 43,96 |
0,3996 |
|
Итого (i) |
114 |
45 |
44 |
142 |
345 |
1,264 |
Цифры в левом верхнем углу каждой клетки данной таблицы перенесены из предыдущей. Цифры в центре клеток представляют собой результат возведения частот в квадрат (f2). Путем деления f^2 на итоговые частоты соответствующих столбцов (f) получаем значения, которые записываем в нижнем правом углу каждой клетки. Например, для первой клетки первого столбца
f,2 402 1600 = 14,04 . Јf, 114 114
Суммы этих величин по строке записываем в итоговом столбце (5). Для первой строки
4 f,2 2 ------ = 14,04 + 0,56 +1,11 + 10,71 = 26,42 .
1=1 f,
Разделим полученные суммы на итог частот по соответствующей строке. Так, для первой строки 26,42 : 91 = 0,2903.
Этот результат записываем в последний столбец (6) расчетной таблицы. Суммируя данные величины (из последнего, 6-го столбца), получим
0,0879= 0,296.
l/(4-1)-(4-1)
Величина первого коэффициента свидетельствует о наличии достаточно заметной связи между изучаемыми признаками. Коэффициент Чупрова обычно дает более осторожную оценку связи.
Некоторые особенности имеет анализ взаимосвязи между двумя альтернативными признаками, который производится с помощью четырехклеточных таблиц. Рассмотрим связь между полом и характером труда -- в сезонных и несезонных отраслях:
Пол |
Численн |
ость занятых в с |
отраслях |
|
сезонных |
несезонных |
Всего |
||
Мужчины Женщины |
187 307 |
265 272 |
*Ч52 579 |
|
Всего |
494 |
537 |
1031 |
Для наглядности вычислим удельные веса по результативному признаку: доля сезонных работников среди женщин составляет 53 % (307 / 579), а среди мужчин -- 41,4 % (187 / 452). На основе этих данных можно утверждать, что связь между полом и отраслью существует.
Оценить тесноту связи между признаками можно с помощью коэффициентов взаимной сопряженности С или К. Но проще это сделать с помощью коэффициентов контингенции или ассоциации.
Введем буквенные обозначения в клетках таблицы сопряженности:
Пол |
Численн |
ость занятых в а |
яраслях |
|
сезонных |
несезонных |
Всего |
||
Мужчины Женщины |
а с |
b d |
а+ b с + d |
|
Всего |
а + с |
b+d |
п |
Коэффициент контингенции вычисляется по формуле
ad - be
/(а + Ь)(с + d)(a + c)(b + d)
Подставив в формулу значения частот, получаем:
(187 * 272) - (265 * 307)
= -0,116.
/452 * 579 * 494 * 537
Величина коэффициента говорит о наличии слабой обратной связи между анализируемыми альтернативными признаками. Коэффициент ассоциации
ad - be
Кд=------------.
ad + be
(187-272) - (265-307) 50894-81355 -30491
=-0,231. (187-272) + (265-307) 50864+81355 132219
Коэффициент контингенции всегда меньше коэффициента ассоциации. Сравнение этих коэффициентов, исчисленных по одним и тем же данным, свидетельствует о том, что коэффициент контингенции дает более осторожную оценку тесноты связи. Заметим также, что I «J = К.
В социально-экономических исследованиях нередко встречаются ситуации, когда признак не выражается количественно, однако единицы совокупности можно упорядочить. Такое упорядочение единиц совокупности по значению признака называется ранжированием. Примерами могут быть ранжирование студентов (учеников) по способностям, любой совокупности людей по уровню образования, профессии, по способности к творчеству и т. д.
При ранжировании каждой единице совокупности присваивается ранг, т. е. порядковый номер. При совпадении значения признака у различных единиц им присваивается объединенный средний порядковый номер. Например, если у 5-й и 6-й единиц совокупности значения признаков одинаковы, обе получат ранг, равный (5 + 6) / 2 = 5,5.
Измерение связи между ранжированными признаками производится с помощью ранговых коэффициентов корреляции Спирмена (р) и Кендэлла (Т). Эти методы применимы не только для качественных, но и для количественных показателей, особенно при малом объеме совокупности, так как непараметрические методы ранговой корреляции не связаны ни с какими ограничениями относительно характера распределения признака.
Сущность метода Спирмена (Spearman) состоит в следующем:
1) располагают варианты факторного признака по возрастанию -- ранжируют единицы по значению признака X;
2) для каждой единицы совокупности указывают ранг с точки зрения результативного признака У.
Если связь между признаками прямая, то с увеличением ранга признака Х ранг признака У также будет возрастать; при тесной связи ранги признаков Х и У в основном совпадут. При обратной связи возрастанию рангов признака Х будет, как правило, соответствовать убывание рангов признака У. В случае отсутствия связи последовательность рангов признака У не будет обнаруживать никакого порядка возрастания или убывания.
Теснота связи между признаками оценивается ранговым коэффициентом корреляции Спирмена:
6Јd2
р=1-----------, n^-l)
где d -- разность рангов признаков Х и У;
n -- число наблюдаемых единиц.
В случае отсутствия связи р = 0. При прямой связи коэффициент р -- положительная правильная дробь, при обратной -- отрицательная.
Кендэллом (Kendall) предложен другой показатель измерения корреляционной связи, также с использованием рангов признаков:
2Х8
Т=---------- .
п(п- 1)
Упрощение расчетов коэффициента Кендэлла достигается следующим образом.
1. Ряд наблюдений располагается в возрастающем порядке по признаку Х с указанием соответствующих им рангов по признаку У.
2. Упорядоченная таким образом последовательность наблюдений берется как исходная для построения квадратной матрицы (а,) размерностью (n * n). Заметим, что для дальнейшего нам потребуются только элементы, расположенные выше главной диагонали. Для заполнения матрицы (а^) по каждой паре наблюдений (i, j) сравниваем ранги признака У:
(\, если R < R ;
(а„) = < 0, если F^ = F^ ;
I- 1, если,Р, >,Ry.
Сумма элементов матрицы (а^), расположенных выше главной диагонали, и есть искомое значение S.
3. При достаточном навыке расчет величины S можно выполнить, непосредственно сравнивая ранг Ry данного наблюдения с рангами R последующих наблюдений. Для каждого наблюдения подсчитываются Р -- число случаев, когда ранг признака У у следующих наблюдений меньше, чем у данного, и Q -- число случаев, когда у следующих наблюдений ранг признака У больше, чем у данного. Искомое значение
S = ZQ - SP.
(Правильность вычислений контролируется соблюдением условия ЈQ+ЈP=n(n- 1)/2).
4. Далее производится расчет по приведенной ранее формуле.
При достаточно больших п между значениями ранговых коэффициентов фиксируется соотношение
Р 3
Рассмотрим для примера зависимость между успеваемостью учащихся средней школы по физико-математическим и гуманитарным наукам:
Ранги успеваемос |
сти по наукам |
||||
Учащиеся |
физико-математическим ("„) |
гуманитарным (R,) |
d=R,-R, |
d2 |
|
А Б В Г Д Е Ж 3 И к |
1 2 3 4 5 6 7 8 9 10 |
3 10 8 4 7 5 9 1 6 2 |
-2 -- Я -5 0 -2 + 1 -2 +7 +3 +8 |
4 64 25 0 4 1 4 49 9 64 |
|
Итого |
55 |
55 |
0 |
224 |
Коэффициент Спирмена
6 * 224 р=1
10(102- 1)
Таким образом, между способностями учеников к физико-математическим и гуманитарным наукам имеется обратная связь, хотя и не очень сильная.
Рассчитаем по тем же данным коэффициент Кендэлла (Т). Для ученика A Q = 7 (положительные баллы), Р (отрицательные баллы) будет получено при сравнении с учениками, ранг которых по У ниже, а по Х выше. Получаем Р = 2. Всего для ученика А имеем (Q - Р) = 7 - 2 = 5. Ученика Б сравниваем со всеми следующими учениками в списке (с А сравнение уже сделано):
Q=0,P=8,Q-P=-8. Для В аналогичным образом отмечаем одного ученика с большим рангом по У и шесть учеников с меньшими рангами. Следовательно, (Q - Р) = 1 - 6 = - 5.
Техника вычисления баллов уже ясна, и можно привести окончательный результат:
S=ЈQ-ЈP=5-8-5+2-3+0-3+2-1=-11. Подставляя вычисленную сумму в формулу, получим -11-2 22
Т = -------------- = - ------ = - 0,244.
10(10-1) 90
Коэффициент Т, так же как и коэффициент Спирмена, свидетельствует об обратной, хотя и менее выраженной связи между признаками.
Оба ранговых коэффициента корреляции применяются для решения одних и тех же задач. Преимуществом коэффициента Т является возможность его использования в многофакторном анализе. Например, при двухфакторном анализе (X,, Хд) частный коэффициент корреляции рангов У и X, равен-- парные коэффициенты соответственно между УиХ^Уи^, Х/иХ,.
Что касается техники расчетов, то вычисление Т сводится к подсчету баллов и проще вычисления коэффициента Спирмена. Поскольку при расчете Т величины рангов нужны только для сравнения, то при наличии количественных признаков можно вести подсчет баллов прямо по их значениям, что избавляет от излишней работы по присвоению рангов.
Размещено на Allbest.ru
Подобные документы
Виды отбора и ошибки наблюдения. Способы отбора единиц в выборочную совокупность. Характеристика коммерческой деятельности предприятия. Выборочное обследование потребителей продукции. Распространение характеристик выборки на генеральную совокупность.
курсовая работа [2,2 M], добавлен 01.09.2013Сущность статистического анализа и выборочного метода. Правила группировки данных выборочного наблюдения по величине объема инвестиций. Графическое представление вариационного ряда (гистограмма, кумулята, кривая Лоренца). Расчет асимметрии и эксцесса.
курсовая работа [70,7 K], добавлен 26.10.2011Предмет и метод статистики. Сущность и основные аспекты статистического наблюдения. Ряды распределения. Статистические таблицы. Абсолютные величины. Показатели вариации. Понятие о статистических рядах динамики. Сопоставимость в рядах динамики.
шпаргалка [31,9 K], добавлен 26.01.2009Понятие статистики, пути ее развития, отличительные черты массовых явлений и признаки единиц совокупности. Формы, виды и способы статистического наблюдения. Задачи и виды статистической сводки. Метод группировки, абсолютные и относительные показатели.
реферат [33,9 K], добавлен 20.01.2010Индексы в статистике, их применение при анализе динамики, выполнении плановых заданий и территориальных сравнений, сравниваемый и базисный уровни. Формирование информационной базы статистического исследования, сводка и группировка результатов наблюдения.
контрольная работа [86,2 K], добавлен 19.10.2010Понятие и отличительные особенности выборочного статистического исследования, условия и возможности его применения в конкретной ситуации. Оценка преимуществ и недостатков данной разновидности исследований перед другими. Логика выборочного наблюдения.
контрольная работа [47,1 K], добавлен 04.11.2010Проведение статистического наблюдения: принципы, основные этапы и закономерности, теоретическая база. Группировка статистических данных. Расчет характеристик вариационного ряда. Анализ связи между признаками по аналитической группировке, рядов динамики.
курсовая работа [202,5 K], добавлен 08.03.2011Характеристика методов выполнения оценок параметров больших множеств по данным выборочного наблюдения. Особенности работы с большими массивами данных. Расчет основных показателей совокупности. Корреляционно-регрессионный анализ. Анализ рядов динамики.
курсовая работа [1,2 M], добавлен 24.08.2010Изучение с количественной стороны массовых явлении и их закономерностей (статистика). Понятия статистической совокупности, наблюдения, группировки, абсолютных и относительных величин, средней арифметической, отклонения, индексов, тренда рядов динамики.
шпаргалка [36,8 K], добавлен 15.12.2009Изучение динамики общественных явлений. Классификация рядов динамики, правила их построения и показатели анализа. Основные показатели вариации курса акций АО "Газпром". Расчетная таблица для определения параметров линейной функции. Анализ тенденции.
курсовая работа [184,1 K], добавлен 10.02.2013