Главная Коллекция "Otherreferats" Экономика и экономическая теория Теория статистики

Теория статистики

Предмет, задачи, основные категории и понятия теории статистики. Вклад ученых в развитие статистики как науки. Сущность статистического наблюдения. Сводка и группировка статистических данных. Использование системы простых и комбинационных группировок.

Рубрика	Экономика и экономическая теория
Вид	курсовая работа
Язык	русский
Дата добавления	22.01.2012
Размер файла	351,2 K

посмотреть текст работы

скачать работу можно здесь

полная информация о работе

весь список подобных работ

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Страница:

3,183

5,841

2,777

4,604

2,571

4,032

2,447

3,707

2,364

3,500

2,307

3,356

2,263

3,250

2,119

2,921

2,078

2,832

Способы распространения характеристик выборки на генеральную совокупность.

Выборочный метод чаще всего применяется для получения характеристик генеральной совокупности по соответствующим показателям выборки. В зависимости от целей исследований это осуществляется или прямым пересчётом показателей выборки для генеральной совокупности, или посредством расчёта поправочных коэффициентов.

Способ прямого пересчёта. Он состоит в том, что показатели выборочной доли или средней распространяется на генеральную совокупность с учётом ошибки выборки.

Так, в торговле определяется количество поступивших в партии товара нестандартных изделий. Для этого (с учётом принятой степени вероятности) показатели доли нестандартных изделий в выборке умножаются на численность изделий во всей партии товара.

Способ поправочных коэффициентов. Применяется в случаях, когда целью выборочного метода является уточнение результатов сплошного учета.

В статистической практике этот способ используется при уточнении данных ежегодных переписей скота, находящегося у населения. Для этого после обобщения данных сплошного учета практикуется 10%-ное выборочное обследование с определением так называемого “процента недоучета”.

Способы отбора единиц из генеральной совокупности.

В статистике применяются различные способы формирования выборочных совокупностей, что обусловливается задачами исследования и зависит от специфики объекта изучения.

Основным условием проведения выборочного обследования является предупреждение возникновения систематических ошибок, возникающих вследствие нарушения принципа равных возможностей попадания в выборку каждой единицы генеральной совокупности. Предупреждение систематических ошибок достигается в результате применения научно обоснованных способов формирования выборочной совокупности.

Существуют следующие способы отбора единиц из генеральной совокупности:

1) индивидуальный отбор -- в выборку отбираются отдельные единицы;

2) групповой отбор -- в выборку попадают качественно однородные группы или серии изучаемых единиц;

3) комбинированный отбор -- это комбинация индивидуального и группового отбора.

Способы отбора определяются правилами формирования выборочной совокупности.

Выборка может быть:

-- собственно-случайная;

-- механическая;

-- типическая;

-- серийная;

-- комбинированная.

Собственно-случайная выборка состоит в том, что выборочная совокупность образуется в результате случайного (непреднамеренного) отбора отдельных единиц из генеральной совокупности. При этом количество отобранных в выборочную совокупность единиц обычно определяется исходя из принятой доли выборки.

Доля выборки есть отношение числа единиц выборочной совокупности n к численности единиц генеральной совокупности N, т.е.

.

Так, при 5%-ной выборке из партии товара в 2 000 ед. численность выборки n составляет 100 ед. (52000:100), а при 20%-ной выборке она составит 400 ед. (202000:100) и т.д.

Механическая выборка состоит в том, что отбор единиц в выборочную совокупность производится из генеральной совокупности, разбитой на равные интервалы (группы). При этом размер интервала в генеральной совокупности равен обратной величине доли выборки.

Так, при 2%-ной выборке отбирается каждая 50-я единица (1:0,02), при 5%-ной выборке -- каждая 20-я единица (1:0,05) и т.д.

Таким образом, в соответствии с принятой долей отбора, генеральная совокупность как бы механически разбивается на равновеликие группы. Из каждой группы в выборку отбирается лишь одна единица.

Важной особенностью механической выборки является то, что формирование выборочной совокупности можно осуществить, не прибегая к составлению списков. На практике часто используют тот порядок, в котором фактически размещаются единицы генеральной совокупности. Например, последовательность выхода готовых изделий с конвейера или поточной линии, порядок размещения единиц партии товара при хранении, транспортировке, реализации и т.д.

Типическая выборка. При типической выборке генеральная совокупность вначале расчленяется на однородные типические группы. Затем из каждой типической группы собственно-случайной или механической выборкой производится индивидуальный отбор единиц в выборочную совокупность.

Типическая выборка обычно применяется при изучении сложных статистических совокупностей. Например, при выборочном обследовании производительности труда работников торговли, состоящих из отдельных групп по квалификации.

Важной особенностью типической выборки является то, что она дает более точные результаты по сравнению с другими способами отбора единиц в выборочную совокупность.

Для определения средней ошибки типической выборки используются формулы:

- повторный отбор

,

- бесповторный отбор

,

Дисперсия определяется по следующим формулам:

,

При одноступенчатой выборке каждая отобранная единица сразу же подвергается изучению по заданному признаку. Так обстоит дело при собственно-случайной и серийной выборке.

При многоступенчатой выборке производят подбор из генеральной совокупности отдельных групп, а из групп выбираются отдельные единицы. Так производится типическая выборка с механическим способом отбора единиц в выборочную совокупность.

Комбинированная выборка может быть двухступенчатой. При этом генеральная совокупность сначала разбивается на группы. Затем производят отбор групп, а внутри последних осуществляется отбор отдельных единиц.

Тема № 9. Статистическое изучение взаимосвязи социально - экономических явлений

Различают два типа связи между различными явлениями и их признаками: функциональную или жестко детерминированную и статистическую или стохастически детерминированную с другой стороны.

Если с изменением одной из переменных вторая изменяется строго определенным образом, т.е. значению одной переменной обязательно соответствует одно или несколько точно заданных значений другой переменной, связь между ними является функциональной.

При стохастически детерминированной связи (статистической) с изменением значения одной переменной вторая может в определенных пределах принимать любые значения с некоторыми вероятностями, но ее среднее значение или иные статистические (массовые) характеристики изменяются по определенному закону, т.е. разным значениям одной переменной соответствуют разные распределения значений другой переменной.

Частным случаем статистической связи является корреляционная связь.

Корреляционная связь - это связь, где воздействие отдельных факторов проявляется только как тенденция (в среднем) при массовом наблюдении фактических данных.

Наиболее простым вариантом корреляционной зависимости является парная корреляция, т.е. зависимость между двумя признаками (результативным и факторным или между двумя факторными). Математически эту зависимость можно выразить как зависимость результативного показателя у от факторного показателя х. Связи могут быть прямые и обратные. В первом случае с увеличением признака х увеличивается и признак у, при обратной связи с увеличением признака х уменьшается признак у.

Методы изучения статистической связи.

Важнейшей задачей является определение формы связи с последующим расчетом параметров уравнения, или, иначе, нахождение уравнения связи (уравнения регрессии).

Могут иметь место различные формы связи:

прямолинейная

линейные связи являются основными и применяются также и при многофакторном анализе.

криволинейная в виде:

Параболы второго порядка (или высших порядков) параболической связью описывается взаимосвязь при которой характер связи между факторным и результативным признаком может измениться на противоположный при прохождении некоторого оптимального значения.

Гиперболы гиперболические зависимости характерны для связей, в которых результативный признак не может варьироваться неограниченно, его вариация имеет односторонний предел показательной функции

Параметры для всех этих уравнений связи, как правило, определяют из системы нормальных уравнений, которые должны отвечать требованию метода наименьших квадратов (МНК):

Другая важнейшая задача - измерение тесноты зависимости - для всех форм связи может быть решена при помощи вычисления эмпирического корреляционного отношения:

где - дисперсия в ряду выравненных значений результативного показателя ; - дисперсия в ряду фактических значений у.

Для определения степени тесноты парной линейной зависимости служит линейный коэффициент корреляции r, для расчета которого можно использовать следующие формулы:

Линейный коэффициент корреляции может принимать значения в пределах от -1 до + 1 или по модулю от 0 до 1. Чем ближе он по абсолютной величине к 1, тем теснее связь. Знак указывает направление связи: «+» - прямая зависимость, «-» имеет место при обратной зависимости.

Общий вид многофакторного уравнения регрессии имеет вид:

y = a + b1x1 + .. + bkxk

Многофакторная система требует не одного, а множества показателей тесноты связей. Основой измерения связей является матрица коэффициентов корреляции. На основе этой матрицы судят о тесноте связи факторов с результативным признаком и между собой. Не рекомендуется включать в уравнение регрессии факторы слабо связанные с результативным признаком, но тесно связанные с другими факторами. Множественный коэффициент корреляции определяется как отношение части вариации результативного признака, объясняемой за счет вариации входящих в уравнение факторов, к общей вариации результативного признака за счет всех факторов. Под вариацией понимается сумма квадратов отклонений индивидуальных значений от расчетных по уравнению регрессии (объясненная вариация) или от общей средней величины признака (общая вариация).

Для случая двух факторов коэффициент множественной детерминации вычисляется по формуле из парных коэффициентов корреляции:

Коэффициент частной детерминации фактора xm - это доля вариации у, не объясненной ранее включенными факторами. Если обозначить частный коэффициент детерминации ддя фактора xm как Тогда

Основные задачи применения корреляционно-регрессионного анализа.

В соответствии с сущностью корреляционной связи ее изучение имеет две цели: 1) измерение параметров уравнения, выражающего связь средних значений зависимой переменной со значениями независимой переменной; 2) измерение тесноты связи двух (или большего числа признаков) между собой.

Задачи корреляционно-регрессионного анализа:

1. Задачи выделения важнейших факторов, влияющих на результативный признак (т.е. вариацию его значений в совокупности). Эта задача решается на базе мер тесноты связи факторов с результативным признаком.

2. Задачи оценки хозяйственной деятельности по эффективности использования факторов производства. Эта задача решается путем расчета для каждой единицы совокупности тех величин результативного признака, которые были получены при средней по совокупности эффективности использования факторов и сравнивания их с фактическими результатами производства.

3. Задача прогнозирования возможных значений результативного признака при задаваемых значениях факторных признаков. Такая задача решается путем подстановки ожидаемых, или планируемых, или возможных значений факторных признаков в уравнении связи и вычисления ожидаемых значений результативного признака.

4. Задача подготовки данных, необходимых в качестве исходных для решения оптимизационных задач.

При решении каждой из названных задач нужно учитывать особенности и ограничения корреляционно-регрессионного метода. Всякий раз необходимо специально обосновать возможность причинной интерпретации уравнения как объясняющего связь между вариацией фактора и результата. Трудно обеспечить раздельную оценку влияния каждого из факторов.

Непараметрические методы определения тесноты связи.

В статистической практике могут встречаться такие случаи, когда качества факторных и результативных признаков не могут быть выражены численно. Поэтому для измерения тесноты зависимости необходимо использовать другие показатели. Для этих целей используются так называемые непараметрические методы.

Наибольшее распространение имеют ранговые коэффициенты корреляции, в основу которых положен принцип нумерации значений статистического ряда. При использовании коэффициентов корреляции рангов коррелируются не сами значения показателей х и у, а только номера их мест, которые они занимают в каждом ряду значений. В этом случае номер каждой отдельной единицы будет ее рангом.

Коэффициент корреляции рангов Спирмэна (р) основан на рассмотрении разности рангов значений результативного и факторного признаков и может быть рассчитан по формуле:

где d = Nx - Ny , т.е. разность рангов каждой пары значений х и у; n - число наблюдений.

К непараметрическим методам исследования можно отнести коэффициент ассоциации Кас и коэффициент контингенции Ккон, которые используются, если, например, необходимо исследовать тесноту зависимости между качественными признаками, каждый из которых представлен в виде альтернативных признаков.

Для определения этих коэффициентов создается расчетная таблица (таблица «четырех полей»), где статистическое сказуемое схематически представлено в следующем виде:

Признаки	А(да)	А(нет)	Итого
В(да)	a	b	a + b
В(нет)	c	d	c + d
Итого	a + c	b + d	n

Здесь а, b, c, d - частоты взаимного сочетания (комбинации) двух альтернативных признаков ; n - общая сумма частот.

Коэффициент ассоциации можно рассчитать по формуле:

Коэффициент контингенции рассчитывается по формуле:

Нужно иметь в виду, что для одних и тех же данных коэффициент контингенции (изменяется от -1 до +1) всегда меньше коэффициента ассоциации.

Наконец, следует упомянуть коэффициент Фехнера, характеризующий элементарную степень тесноты связи, который целесообразно использовать для установления факта наличия связи, когда существует небольшой объем исходной информации. Данный коэффициент определяется по формуле:

где na - количество совпадений знаков отклонений индивидуальных величин от их средней арифметической; nb - соответственно количество несовпадений. Коэффициент Фехнера может изменяться в пределах -1,0 Кф +1,0.

Целью применения корреляционно-регрессионного метода является построение такого уравнения регрессии, которое включает основные факторы, влияющие на вариацию результативного признака, обладающего высоким (не ниже 0,5) коэффициентом детерминации и коэффициентами регрессии, интерпретируемыми в соответствие с теоретическим знанием о природе связей в изучаемой системе.

При использовании корреляционно-регрессионного метода при анализе социально-экономических явлений необходимо учесть следующие ограничения.

Интерпретировать корреляционные показатели строго следует лишь в терминах вариации (различий в пространстве) отклонений от средней величины. Если задача состоит в изменении связи не между вариацией двух признаков в совокупности, а меду изменениями признаков объекта во времени, то корреляционно-регрессионный анализ требует значительных изменений.

Корреляционно-регрессионный метод основан на том, что группировка совокупности по одному факторному признаку при условии, что все другие не связаны с изучаемым, а случайные отклонения и ошибки взаимопогасились в большой совокупности. Если же фактор связан с другими факторами, то будет получена не чистая характеристика влияния.

При этом относительная простота и применение компьютерной техники позволяет достаточно широко и эффективно применять данных метод на практике.

Параметрический методы определения тесноты связи состоит в расчете F критерия Фишера, который рассчитывается по формуле:

где r2 - коэффициент корреляции, n - число единиц в совокупности, к- число степеней свободы.

Для оценки надежности результатов уравнения регрессии F сравнивают c Fтабл при заданном уровне вероятности. Если полученное значение больше табличного, то можно говорить о высокой степени надежности результатов регрессионного моделирования. Если ниже - то полученные оценки коэффициентов регрессии статистически незначимы.

Коэффициент конкордации

где n - количество анализируемых объектов, m - количество экспертов, Rij - ранг j-го объекта, который присвоен ему i-ым экспертом.

Следует обратить внимание на отличие значений коэффициента конкордации от коэффициента корреляции, так как он существует в пределах от 0 до 1. Если мнения экспертов полностью противоположны, коэффициент конкордации равен нулю (W = 0), а коэффициент корреляции в этом случае будет равен -1.

Тема № 10. Ряды динамики и их применение в анализе социально-экономических явлений

Изменение социально-экономических явлений во времени изучается статистикой методом построения и анализа динамических рядов. Ряды динамики - это значения статистических показателей, которые представлены в определенной хронологической последовательности.

Каждый динамический ряд содержит две составляющие: 1) показатели периодов времени (годы, кварталы, месяцы, дни или даты); 2) показатели, характеризующие исследуемый объект за временные периоды или на соответствующие даты, которые называют уровнями ряда.

Уровни ряда выражаются как абсолютными, так и средними или относительными величинами. В зависимости от характера показателей строят динамические ряды абсолютных, относительных и средних величин. Ряды динамики из относительных и средних величин строят на основе производных рядов абсолютных величин. Различают интервальные и моментные ряды динамики.

Динамический интервальный ряд содержит значения показателей за определенные периоды времени. В интервальном ряду уровни можно суммировать, получая объем явления за более длительный период, или так называемые накопленные итоги.

Динамический моментный ряд отражает значения показателей на определенный момент времени (дату времени). В моментных рядах исследователя может интересовать только разность явлений, отражающая изменение уровня ряда между определенными датами, поскольку сумма уровней здесь не имеет реального содержания. Накопленные итоги здесь не рассчитываются.

Важнейшим условием правильного построения динамических рядов является сопоставимость уровней рядов, относящихся к различным периодам. Уровни должны быть представлены в однородных величинах, должна иметь место одинаковая полнота охвата различных частей явления.

Для того, чтобы избежать искажения реальной динамики, в статистическом исследовании проводятся предварительные расчеты (смыкание рядов динамики), которые предшествуют статистическому анализу динамических рядов. Под смыканием рядов динамики понимается объединение в один ряд двух и более рядов, уровни которых рассчитаны по разной методологии или не соответствуют территориальным границам и т.д. Смыкание рядов динамики может предполагать также приведение абсолютных уровней рядов динамики к общему основанию, что нивелирует несопоставимость уровней рядов динамики.

Для характеристики интенсивности развития во времени используются статистические показатели, получаемые сравнением уровней между собой, в результате чего получаем систему абсолютных и относительных показателей динамики: абсолютный прирост, коэффициент роста, темп роста, темп прироста, абсолютное значение 1% прироста. Для характеристики интенсивности развития за длительный период рассчитываются средние показатели: средний уровень ряда, средний абсолютный прирост, средний коэффициент роста, средний темп роста, средний темп прироста, среднее абсолютное значение 1% прироста.

Базисные показатели характеризуют итоговый результат всех изменений в уровнях ряда от периода базисного уровня до данного (i-го) периода. Рассчитываются как отношение i-го уровня к базисному (начальному).

Цепные показатели характеризуют интенсивность изменения уровня от одного периода к другому в пределах того промежутка времени, который исследуется. Рассчитываются как отношение i-го к предшествующему уровню.

Абсолютный прирост выражает абсолютную скорость изменения ряда динамики и определяется как разность между данным уровнем и уровнем, принятым за базу сравнения.

Абсолютный прирост (базисный)

где yi - уровень сравниваемого периода; y0 - уровень базисного периода.

Абсолютный прирост с переменной базой (цепной), который называют скоростью роста,

где yi - уровень сравниваемого периода; yi-1 - уровень предшествующего периода.

Коэффициент роста Ki определяется как отношение данного уровня к предыдущему или базисному, показывает относительную скорость изменения ряда. Если коэффициент роста выражается в процентах, то его называют темпом роста.

Коэффициент роста базисный

Коэффициент роста цепной

Темп роста

Темп прироста ТП определяется как отношение абсолютного прироста данного уровня к предыдущему или базисному.

Темп прироста базисный

Темп прироста цепной

Темп прироста можно рассчитать и иным путем: как разность между темпом роста и 100 % или как разность между коэффициентом роста и 1 (единицей):

1) Тп = Тр - 100%; 2) Тп = Ki - 1.

Абсолютное значение одного процента прироста Ai . Этот показатель служит косвенной мерой базисного уровня. Представляет собой одну сотую часть базисного уровня, но одновременно представляет собой и отношение абсолютного прироста к соответствующему темпу роста. Данный показатель рассчитывают по формуле

Для характеристики динамики изучаемого явления за продолжительный период рассчитывают группу средних показателей динамики. Можно выделить две категории показателей в этой группе: а) средние уровни ряда; б) средние показатели изменения уровней ряда.

Средние уровни ряда рассчитываются в зависимости от вида временного ряда.

Для интервального ряда динамики абсолютных показателей средний уровень ряда рассчитывается по формуле простой средней арифметической:

где n - число уровней ряда.

Средний уровень моментного ряда с равными интервалами рассчитывается по формуле средней хронологической:

где n - число дат.

Средний уровень моментного ряда с неравными интервалами рассчитывается по формуле средней арифметической взвешенной, где в качестве весов берется продолжительность промежутков времени между временными моментами изменений в уровнях динамического ряда:

где t - продолжительность периода (дни, месяцы), в течение которого уровень не изменялся.

Средний абсолютный прирост (средняя скорость роста) определяется как средняя арифметическая из показателей скорости роста за отдельные периоды времени:

где yn - конечный уровень ряда; y1 - начальный уровень ряда.

Средний коэффициент роста рассчитывается по формуле средней геометрической из показателей коэффициентов роста за отдельные периоды:

где Кр1 , Кр2 , ..., Кр n-1 - коэффициенты роста по сравнению с предыдущим периодом; n - число уровней ряда.

Средний коэффициент роста можно определить иначе:

Средний темп роста, %. Это средний коэффициент роста, который выражается в процентах:

Средний темп прироста , %. Для расчета данного показателя первоначально определяется средний темп роста, который затем уменьшается на 100%. Его также можно определить, если уменьшить средний коэффициент роста на единицу:

Среднее абсолютное значение 1% прироста можно рассчитать по формуле

В ходе обработки динамического ряда важнейшей задачей является выявление основной тенденции развития явления (тренда) и сглаживание случайных колебаний. Для решения этой задачи в статистике существуют особые способы, которые называют методами выравнивания.

Выделяют три основных способа обработки динамического ряда: а) укрупнение интервалов динамического ряда и расчет средних для каждого укрупненного интервала; б) метод скользящей средней; в) аналитическое выравнивание (выравнивание по аналитическим формулам).

Укрупнение интервалов - наиболее простой способ. Он заключается в преобразовании первоначальных рядов динамики в более крупные по продолжительности временных периодов, что позволяет более четко выявить действие основной тенденции (основных факторов) изменения уровней. По интервальным рядам итоги исчисляются путем простого суммирования уровней первоначальных рядов. Для других случаев рассчитывают средние величины укрупненных рядов (переменная средняя). Переменная средняя рассчитывается по формулам простой средней арифметической.

Скользящая средняя - это такая динамическая средняя, которая последовательно рассчитывается при передвижении на один интервал при заданной продолжительности периода. Если, предположим, продолжительность периода равна 3, то скользящие средние рассчитываются следующим образом:

и т.д.

Первую рассчитанную среднюю относят ко второму периоду, вторую - к третьему, третью - к четвертому и т.д. По сравнению с фактическим сглаженный ряд становится короче на (m - 1)/2, где m - число уровней интервала.

Важнейшим способом количественного выражения общей тенденции изменения уровней динамического ряда является аналитическое выравнивание ряда динамики, которое позволяет получить описание плавной линии развития ряда. При этом эмпирические уровни заменяются уровнями, которые рассчитываются на основе определенной кривой, где уравнение рассматривается как функция времени. Вид уравнения зависит от конкретного характера динамики развития. Его можно определить как теоретически, так и практически. Теоретический анализ основывается на рассчитанных показателях динамики. Практический анализ - на исследовании линейной диаграммы.

Задачей аналитического выравнивания является определение не только общей тенденции развития явления, но и некоторых недостающих значений как внутри периода, так и за его пределами. Способ определения неизвестных значений внутри динамического ряда называют интерполяцией. Эти неизвестные значения можно определить: 1) используя полусумму уровней, расположенных рядом с интерполируемыми; 2) по среднему абсолютному приросту; 3) по темпу роста. В результате аналитического выравнивания получают следующую трендовую модель:

где f(t) - уровень, определяемый тенденцией развития; et - случайное и циклическое отклонение от тенденции.

Целью аналитического выравнивания динамического ряда является определение аналитической или графической зависимости f(t). На практике по имеющемуся временному ряду задают вид и находят параметры функции f(t), а затем анализируют поведение отклонений от тенденции. Функцию f(t) выбирают таким образом, чтобы она давала содержательное объяснение изучаемого процесса.

Чаще всего при выравнивании используются следующие зависимости:

Линейная зависимость выбирается в тех случаях, когда в исходном временном ряду наблюдаются более или менее постоянные абсолютные цепные приросты, не проявляющие тенденции ни к увеличению, ни к снижению.

Параболическая зависимость используется, если абсолютные цепные приросты сами по себе обнаруживают некоторую тенденцию развития, но абсолютные цепные приросты абсолютных цепных приростов (разности второго порядка) никакой тенденции развития не проявляют.

Экспоненциальные зависимости применяются, если в исходном временном ряду наблюдается либо более или менее постоянный относительный рост (устойчивость цепных темпов роста, темпов прироста, коэффициентов роста), либо, при отсутствии такого постоянства, - устойчивость в изменении показателей относительного роста (цепных темпов роста цепных же темпов роста, цепных коэффициентов роста цепных же коэффициентов или темпов роста и т.п.).

Оценка параметров (a0, a1, a2, ...) осуществляется следующими методами:

1) методом избранных точек,

2) методом наименьших расстояний,

3) методом наименьших квадратов (МНК).

В большинстве расчетов используют метод наименьших квадратов, который обеспечивает наименьшую сумму квадратов отклонений фактических уровней от выравненных:

Для линейной зависимости (f(t)=a0+a1t) параметр а0 обычно интерпретации не имеет, но иногда его рассматривают как обобщенный начальный уровень ряда; а1 - сила связи, т.е. параметр, показывающий, насколько изменится результат при изменении времени на единицу. Таким образом, а можно представить как постоянный теоретический абсолютный прирост.

Построив уравнение регрессии, проводят оценку его надежности. Оценка надежности параметров уравнения проводится на основании анализа случайной компоненты. Это делается посредством критерия Фишера (F). Фактический уровень (Fфакт) сравнивается с теоретическим (табличным) значением:

где k - число параметров функции, описывающей тенденцию;

n - число уровней ряда;

Fфакт сравнивается с Fтеор при v1 = (k-1), v2 = (n-k) степенях свободы и уровне значимости a (обычно a = 0,05). Если Fфакт > Fтеор, уравнение регрессии значимо, т.е. построенная модель адекватна фактической временной тенденции.

Способ определения количественных значений за пределами ряда называют экстраполяцией. Экстраполирование используется для прогнозирования тех факторов, которые не только в прошлом и настоящем обусловливают развитие явления, но и могут оказать влияние на его развитие в будущем.

Экстраполировать можно по средней арифметической, по среднему абсолютному приросту, по среднему темпу роста.

При аналитическом выравнивании может иметь место автокорреляция, под которой понимается зависимость между соседними членами динамического ряда. Автокорреляцию можно установить с помощью перемещения уровня на одну дату. Коэффициент автокорреляции вычисляется по формуле

Автокорреляцию в рядах можно устранить, коррелируя не сами уровни, а так называемые остаточные величины (разность эмпирических и теоретических уровней). В этом случае корреляцию между остаточными величинами можно определить по формуле

Анализ рядов динамики предполагает и исследование сезонной неравномерности (сезонных колебаний), под которыми понимают устойчивые внутригодовые колебания, причиной которых являются многочисленные факторы, в том числе и природно-климатические. Сезонные колебания измеряются с помощью индексов сезонности, которые рассчитываются двумя способами в зависимости от характера динамического развития.

При относительно неизменном годовом уровне явления индекс сезонности можно рассчитать как процентное отношение средней величины из фактических уровней одноименных месяцев к общему среднему уровню за исследуемый период:

В условиях изменчивости годового уровня индекс сезонности определяется как процентное отношение средней величины из фактических уровней одноименных месяцев к средней величине из выровненных уровней одноименных месяцев:

В простейших случаях для характеристики взаимосвязи двух или более рядов их приводят к общему основанию, для чего берут в качестве базисных уровни за один и тот же период и исчисляют коэффициенты опережения по темпам роста или прироста. Коэффициенты опережения по темпам роста - это отношение темпов роста (цепных или базисных) одного ряда к соответствующим по времени темпам роста (также цепным или базисным) другого ряда. Аналогично находятся и коэффициенты опережения по темпам прироста.

Временной лаг - экономический показатель, показывающий отставание или опережение одного экономического явления по сравнению с другим, связанным с ним явлением.

Тема № 11. Индексный метод анализа. Понятие о индексах. Сфера их применения и классификация

Индексами называют сравнительные относительные величины, которые характеризуют изменение сложных социально-экономических показателей (показатели, состоящие из несуммируемых элементов) во времени, в пространстве, по сравнению с планом.

Индекс - это результат сравнения двух одноименных показателей, при исчислении которого следует различать числитель индексного отношения (сравниваемый или отчетный уровень) и знаменатель индексного отношения (базисный уровень, с которым производится сравнение). Выбор базы зависит от цели исследования. Если изучается динамика, то за базисную величину может быть взят размер показателя в периоде, предшествующем отчетному. Если необходимо осуществить территориальное сравнение, то за базу можно принять данные другой территории. За базу сравнения могут приниматься плановые показатели, если необходимо использовать индексы как показатели выполнения плана.

Признак изменение которого характеризует индекс называется индексируемым.

Признак-вес выполняет функцию веса по отношению к индексируемому признаку.

При построении индексов решают следующие вопросы: 1) определение вида индекса и вида показателей с помощью которых строится индекс; 2) выбор базы (а) данные по той же совокупности и по тому же признаку за предшествующий период; б) плановое задание; в) данные по какой-либо другой совокупности, сходной по характеру с изучаемой).

При установлении базы необходимо соблюдать следующие правила: сопоставимость базисных и отчетных данных; обеспечить типичность базовых данных.

По степени охвата элементов явления индексы делят на индивидуальные и общие (сводные).

Индивидуальные индексы (i) - это индексы, которые характеризуют изменение только одного элемента совокупности.

Общий (сводный) индекс (I) характеризует изменение по всей совокупности элементов сложного явления. Если индексы охватывают только часть явления, то их называют групповыми.

В зависимости от способа изучения общие индексы могут быть построены или как агрегатные (от лат. аggrega - присоединяю) индексы, или как средние взвешенные индексы (средние из индивидуальных).

Способ построения агрегатных индексов заключается в том, что при помощи так называемых соизмерителей можно выразить итоговые величины сложной совокупности в отчетном и базисном периодах, а затем первую сопоставить со второй.

Если индексы можно рассчитать на основе сравнения двух сумм, полученных, например, путем умножения среднесписочной численности работников в базисном и отчетном периоде (по каждому j предприятию, структурному подразделению и т.д.) t0j и t1j и средней заработной - z0j и z1j , то такие индексы называют агрегатными. Таким образом, общие индексы могут быть рассчитаны не только через осреднение индивидуальных индексов, а и на основе сравнения двух сумм (агрегатов). Агрегатные индексы считаются основной формой индексов. Они выполняют две функции: синтетическую и аналитическую.

Первая функция обеспечивается тем, что в одном индексе обобщаются (синтезируются) непосредственно несоизмеримые явления, когда мы записываем (где z - средняя заработная плата, а t - среднесписочная численность работников), то благодаря использованию денежного соизмерителя можно агрегировать данные по различным категориям работников (несопоставимым по натуральным измерителям).

Аналитическая функция вытекает из взаимосвязи индексов, т.к. практически каждый индекс можно рассматривать как составляющую некой системы индексов, в которой его роль сводится к измерению одного из факторов общего изменения сложного явления и вклада этого фактора в соответствующее изменение.

Так, например, индекс цен можно рассматривать как показатель влияния изменения средней заработной платы на фонд оплаты труда, что основано на следующей связи признаков: среднесписочная численность * средняя заработная плата = фонд оплаты труда или tz = w. Системе признаков соответствует система индексов.

Когда мы указывает индекс среднесписочной численности работников или индекс средней заработной платы, мы имеем в виду изменение фонда оплаты труда за счет изменения среднесписочной численности работников или средней заработной платы.

При построении агрегатных индексов пользуются такими понятиями, как индексируемый признак и признак-вес. Индексируемый признак - это признак, изменение которого характеризует данный индекс. Например, в It - это t. Значение индексируемого признака изменяется, т.е. отчетное значение сопоставляется с базисным.

Признак-вес выполняет функцию веса по отношению к индексируемому признаку, его значение в индексе принимается постоянным, т.к. он не должен искажать оценку изменения индексируемого признака. Например, в It - это z.

Если индексы рассматриваются в системе, то должна обеспечиваться взаимосвязь между ними:

It * Iz = Iw

Расчет среднего индекса применяется при определении общего индекса или общего изменения состояния изучаемого объекта. Так как расчет среднего индекса как отношения суммы индивидуальных признаков в текущем и базисном периоде () или как простой средней из индивидуальных индексов (), т.е. невзвешенных средних арифметических не учитывает объемов и структуры изучаемого объекта, то применяют взвешенную среднюю.

Для расчета среднего индекса может использоваться другие формы средних величин.

Средняя геометрическая:

Средняя гармоническая невзвешенная рассчитывается по формуле:

Индексы с постоянными и переменными весами и метод выявления роли факторов динамики сложных явлений.

При построении агрегатных индексов веса могут быть закреплены на базисном, отчетном или смешанном уровнях. При закреплении весов только на базисном или только на отчетном уровне, постоянных весов, равенство

It * Iz = Iw не выполняется.

Например,

Только когда взаимосвязанные индексы строятся с весами разных периодов, увязка их в системе выполняется.

Например, .

В приведенном примере индексы первичных признаков стоятся на весах базисного периода, вторичных - на весах отчетного периода. Отечественная статистика в своей практике придерживалась именно такого подхода. Но при таком подходе значение полученных индексов при изменении последовательности признаков различаются, т.е. если в модели tz = w t и z поменять местами значения полученных индексов будут иметь расхождения.

Различие между индексами с разными весами можно объяснить при помощи уравнения В.И. Борткевича (1868 - 1931):

где - корреляция между изменением цен и объемом продаж на отдельные товары, - темпы изменения объемов реализованных товаров и цен соответственно.

Таким образом, из формулы видно, что индексы с отчетными и базисными весами будут равны, если выполняется хотя бы одно из условий: , , . Чем больше величина сравниваемого периода, тем сильнее проявляется различие.

Однако на практике, как правило, стремятся получить однозначное решение тем или иным способом. Первый способ заключается в получении средних оценок изменений, либо путем построения индексов на средних весах либо через осреднение равновзвешенных индексов. При этом предпочтение отдается средней геометрической.

Второй путь основан на предпочтении какого-то одного варианта построения взаимосвязанных индексов, применялся в отечественной практике.

В статистике имеют большое значение индексы переменного и фиксированного состава, которые используются при анализе динамики средних показателей.

Индексом переменного состава называют отношение двух средних уровней.

Индекс фиксированного состава есть средний из индивидуальных индексов. Он рассчитывается как отношение двух стандартизованных средних, где влияние изменения структурного фактора устранено, поэтому данный индекс называют еще индексом постоянного состава.

В зависимости от характера и содержания индексируемых величин различают индексы количественных (объемных) показателей и индексы качественных показателей.

К индексам количественных (объемных) показателей относятся такие индексы, как индексы физического объема производства продукции, затрат на выпуск продукции, стоимости продукции, а также индексы показателей, размеры которых определяются абсолютными величинами. Используются различные виды индексов количественных показателей.

Индекс физического объема продукции (ФОП) отражает изменение выпуска продукции.

Индивидуальный индекс ФОП отражает изменение выпуска продукции одного вида и определяется по формуле

где q1 и q0 - количество продукции данного вида в натуральном выражении в текущем и базисном периодах.

Агрегатный индекс ФОП отражает изменение выпуска всей совокупности продукции, где индексируемой величиной является количество продукции q, а соизмерителем - цена р:

где q1 и q0 - количество выработанных единиц отдельных видов продукции соответственно в отчетном и базисном периодах; p0 - цена единицы продукции (отдельного вида) в базисном периоде.

При вычислении индекса ФОП в качестве соизмерителей может выступать также себестоимость продукции или трудоемкость.

Средние взвешенные индексы ФОП используются в том случае, если известны индивидуальные индексы объема по отдельным видам продукции и стоимость отдельных видов продукции (или затраты) в базисном или отчетном периоде.

Средний взвешенный арифметический индекс ФОП определяется по формуле

где iq - индивидуальный индекс по каждому виду продукции; q0 p0 - стоимость продукции каждого вида в базисном периоде.

Средний взвешенный гармонический индекс ФОП

где q1 p1 - стоимость продукции каждого вида в текущем периоде.

Аналогично рассчитывается индекс затрат на выпуск продукции, который отражает изменение затрат на производство и может быть как индивидуальным, так и агрегатным.

Между индексами существует также взаимосвязь и взаимозависимость, как и между самими экономическими явлениями, что позволяет проводить факторный анализ. Благодаря индексному методу можно рассматривать все факторы независимо друг от друга, что дает возможность определить размер абсолютного изменения сложного явления за счет каждого фактора в отдельности.

Предположим, что результативный признак зависит от трех факторов и более. В этом случае результативный индекс примет вид:

Изменение результативного индекса за счет каждого фактора может быть выражено следующим образом:

Для выявления роли каждого фактора в отдельности индекс сложного показателя разлагают на частные (факторные) индексы, которые характеризуют роль каждого фактора. При этом используют два метода: метод обособленного изучения факторов; последовательно-цепной метод.

При первом методе сложный показатель берется с учетом изменения лишь того фактора, который взят в качестве исследуемого, все остальные остаются неизменными на уровне базисного периода.

Последовательно-цепной метод предполагает использование системы взаимосвязанных индексов, которая требует определенного расположения факторов. Как правило, на первом месте в цепи располагают качественный фактор. При определении влияния первого фактора все остальные сохраняются в числителе и знаменателе на уровне базисного периода, при определении второго факторного индекса первый фактор сохраняется на уровне базисного периода, а третий и все последующие - на уровне отчетного периода, при определении третьего факторного индекса первый и второй факторы сохраняются на уровне базисного периода, четвертый и все остальные - на уровне отчетного периода и т.д.

Территориальные индексы.

Индексы могут быть использованы не только как показатели сравнения состояний изучаемого явления во времени, но и в пространстве, между отдельными территориями. Индексы позволяющие сравнивать различные территориальные образования между собой носят название территориальных индексов. При построении территориальных индексов применяются те же правила, что при сравнении явлении во времени, только в территориальных индексах в качестве весов используются показатели численности населения, доли в общих доходах населения от заработной платы и т.д. Кроме того, при сравнении разных территорий за один период значки «0» и «1» не используются. Использование индексов при анализе различий между территориями обусловлено следующим: индексы позволяют сопоставить территории с разным уровнем социально-экономического развития, с разным уровнем развития производства, с разной структурой потребительского рынка и доходов и т.д.

Тема № 12. Многомерный статистический анализ

Дисперсионный анализ.

Целью дисперсионного анализа является проверка статистической значимости различия между средними (для групп или переменных). Эта проверка проводится с помощью разбиения суммы квадратов на компоненты, т.е. с помощью разбиения общей дисперсии (вариации) на части, одна из которых обусловлена случайной ошибкой (то есть внутригрупповой изменчивостью), а вторая связана с различием средних значений. Последняя компонента дисперсии затем используется для анализа статистической значимости различия между средними значениями. Если это различие значимо, нулевая гипотеза отвергается и принимается альтернативная гипотеза о существовании различия между средними.

Разбиение суммы квадратов. Для выборки объема n выборочная дисперсия вычисляется как сумма квадратов отклонений от выборочного среднего, деленная на n-1 (объем выборки минус единица). Таким образом, при фиксированном объеме выборки n дисперсия есть функция суммы квадратов (отклонений). В основе дисперсионного анализа лежит разделение дисперсии на части или компоненты, т.е. выборка разбивается на две части в которых вычисляются средние и сумма квадратов отклонений. Расчет тех же показателей по выборки в целом дает большее значение дисперсии, что объясняется расхождение между групповыми средними. Таким образом, дисперсионный анализ позволяет объяснить внутригрупповую изменчивость, которая при исследовании всей группы в целом не может быть изменена.

Проверка значимости в дисперсионном анализе основана на сравнении компоненты дисперсии, обусловленной межгрупповым и компоненты дисперсии, обусловленной внутригрупповым разбросом (называемой средним квадратом ошибки). Если верна нулевая гипотеза (равенство средних в двух популяциях), то можно ожидать сравнительно небольшое различие выборочных средних из-за чисто случайной изменчивости. Поэтому, при нулевой гипотезе, внутригрупповая дисперсия будет практически совпадать с общей дисперсией, подсчитанной без учета групповой принадлежности. Полученные внутригрупповые дисперсии можно сравнить с помощью F-критерия, проверяющего, действительно ли отношение дисперсий значимо больше 1.

Преимущества: 1) дисперсионный анализ существенно более эффективен и, для малых выборок, т.к. более информативен; 2)дисперсионный анализ позволяет обнаружить эффекты взаимодействия между факторами и, поэтому, позволяет проверять более сложные гипотезы.

Метод главных компонент состоит в линейном понижении размерности, в котором определяются попарно ортогональные направления максимальной вариации исходных данных, после чего данные проектируются на пространство меньшей размерности, порожденное компонентами с наибольшей вариацией.

Метод главных компонент является частью факторного анализа, который состоит в том, что две коррелированные переменные объединены в один фактор. Если пример с двумя переменными распространить на большее число переменных, то вычисления становятся сложнее, однако основной принцип представления двух или более зависимых переменных одним фактором остается в силе.

При сокращении числа переменных решение о том, когда следует остановить процедуру выделения факторов, главным образом зависит от точки зрения на то, что считать малой "случайной" изменчивостью. При повторных итерациях выделяются факторы с все меньшей и меньшей дисперсией.

Центроидный метод определения факторов.

Центроидный метод используется при кластерном анализе. В этом методе расстояние между двумя кластерами определяется как расстояние между их центрами тяжести при не взвешенном центроидном методе.

Взвешенный центроидный метод (медиана) идентичен не взвешенному, за исключением того, что при вычислениях используются веса для учёта разницы между размерами кластеров (т.е. числами объектов в них). Поэтому, если имеются (или подозреваются) значительные отличия в размерах кластеров, этот метод оказывается предпочтительнее предыдущего.

Кластерный анализ.

Термин кластерный анализ в действительности включает в себя набор различных алгоритмов классификации. Общий вопрос, задаваемый исследователями во многих областях, состоит в том, как организовать наблюдаемые данные в наглядные структуры, т.е. определить кластеры схожих объектов. Фактически, кластерный анализ является не столько обычным статистическим методом, сколько "набором" различных алгоритмов "распределения объектов по кластерам". Существует точка зрения, что в отличие от многих других статистических процедур, методы кластерного анализа используются в большинстве случаев тогда, когда вы не имеете каких-либо априорных гипотез относительно классов, но все еще находитесь в описательной стадии исследования. Следует понимать, что кластерный анализ определяет "наиболее возможно значимое решение".

Алгоритм древовидной кластеризации. Назначение этого алгоритма состоит в объединении объектов в достаточно большие кластеры, используя некоторую меру сходства или расстояние между объектами. Типичным результатом такой кластеризации является иерархическое дерево, которое представляет собой диаграмму. Диаграмма начинается с каждого объекта в классе (в левой части диаграммы). Теперь представим себе, что постепенно (очень малыми шагами) вы "ослабляете" ваш критерий о том, какие объекты являются уникальными, а какие нет. Другими словами, вы понижаете порог, относящийся к решению об объединении двух или более объектов в один кластер. В результате, вы связываете вместе всё большее и большее число объектов и агрегируете (объединяете) все больше и больше кластеров, состоящих из все сильнее различающихся элементов. Окончательно, на последнем шаге все объекты объединяются вместе. На этих диаграммах горизонтальные оси представляют расстояние объединения (в вертикальных древовидных диаграммах вертикальные оси представляют расстояние объединения). Так, для каждого узла в графе (там, где формируется новый кластер) вы можете видеть величину расстояния, для которого соответствующие элементы связываются в новый единственный кластер. Когда данные имеют ясную "структуру" в терминах кластеров объектов, сходных между собой, тогда эта структура, скорее всего, должна быть отражена в иерархическом дереве различными ветвями. В результате успешного анализа методом объединения появляется возможность обнаружить кластеры (ветви) и интерпретировать их.

Дискриминантный анализ используется для принятия решения о том, какие переменные различают (дискриминируют) две или более возникающие совокупности (группы). Наиболее общим применением дискриминантного анализа является включение в исследование многих переменных с целью определения тех из них, которые наилучшим образом разделяют совокупности между собой. Другими словами, вы хотите построить "модель", позволяющую лучше всего предсказать, к какой совокупности будет принадлежать тот или иной образец. В следующем рассуждении термин "в модели" будет использоваться для того, чтобы обозначать переменные, используемые в предсказании принадлежности к совокупности; о неиспользуемых для этого переменных будем говорить, что они "вне модели".

В пошаговом анализе дискриминантных функций модель дискриминации строится по шагам. Точнее, на каждом шаге просматриваются все переменные и находится та из них, которая вносит наибольший вклад в различие между совокупностями. Эта переменная должна быть включена в модель на данном шаге, и происходит переход к следующему шагу.

Можно также двигаться в обратном направлении, в этом случае все переменные будут сначала включены в модель, а затем на каждом шаге будут устраняться переменные, вносящие малый вклад в предсказания. Тогда в качестве результата успешного анализа можно сохранить только "важные" переменные в модели, то есть те переменные, чей вклад в дискриминацию больше остальных.