Экономико-математические методы и прикладные модели
Предмет и методы эконометрики. Абстрактные модели рыночной экономики. Модели частотного анализа. Коэффициенты корреляции рангов Спирмена, Кендалла, коэффициент Фехнера. Корреляционно-регрессионный анализ. Использование пакетов прикладных программ.
Рубрика | Экономико-математическое моделирование |
Вид | контрольная работа |
Язык | русский |
Дата добавления | 14.12.2011 |
Размер файла | 632,0 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru/
Размещено на http://www.allbest.ru/
Специальность 06.04.00
Контрольная работа
«Основы эконометрики»
Вариант 1
Тольятти
2007
СОДЕРЖАНИЕ
- Теоретическая часть
- 1. Предмет и методы эконометрики. Абстрактные модели рыночной экономики
- 2. Модели частотного анализа
- 3. Коэффициенты корреляции рангов Спирмена, Кендалла, коэффициент Фехнера
- Практическая часть
- Задача 1. Корреляционно-регрессионный анализ
- Таблица 3
- Задача 2. Линейная оптимизация
- Задача 3. Кластерный анализ
- Приложения. Решение задач с использованием пакетов прикладных программ (MS Excel 7.0)
- 1. Задача корреляционно-регрессионного анализа
- 2. Оптимизационная задача
- 3. Задача кластеризации
- Используемая литература
- Теоретическая часть
1. Предмет и методы эконометрики. Абстрактные модели рыночной экономики
Предмет эконометрики. Специфической особенностью деятельности экономиста является работа в условиях недостатка информации и неполноты исходных данных. Анализ такой информации требует специальных методов, которые составляют один из аспектов эконометрики. Центральной проблемой эконометрики являются построение эконометрической модели и определение возможностей ее использования для описания, анализа и прогнозирования реальных экономических процессов.
Эконометрика - быстроразвивающаяся отрасль науки, цель которой состоит в том, чтобы придать количественные меры экономическим отношениям. Можно сказать также, что целью эконометрики является модельное описание конкретных количественных взаимосвязей, обусловленных общими качественными закономерностями, изученными в экономической теории.
Термин «эконометрика» («эконометрия») был впервые введен в 1910 г. австрийским бухгалтером П. Цьемпой, который считал, что если к данным бухгалтерского учета применить методы алгебры и геометрии, то будет получено новое, более глубокое представление о результатах хозяйственной деятельности. Термин «эконометрика», образованный от слов «экономика» и «метрика», подчеркивает специфику, содержание эконометрики как науки: количественное выражение тех связей и соотношений, которые раскрыты и обоснованы экономической теорией. Дадим одно из определений эконометрики:
Эконометрика - это наука, которая дает количественное выражение взаимосвязей экономических явлений и процессов.
Другое определение, данное известным российским ученым, профессором С.А.Айвазяном:
Эконометрика - это самостоятельная научная дисциплина, объединяющая совокупность теоретических результатов, приемов, методов и моделей, предназначенных для того, чтобы на базе:
экономической теории;
экономической статистики;
математико-статистического инструментария
придавать конкретное количественное выражение общим качественным закономерностям, обусловленным экономической теорией.
Зарождение эконометрики является следствием междисциплинарного подхода к изучению экономики. Эта наука возникла в результате взаимодействия и объединения в особый «сплав» трех компонент: экономической теории, статистических и математических методов. Впоследствии к ним присоединилось развитие вычислительной техники как условие развития эконометрики.
Для описания, анализа и прогнозирования реальных экономических процессов эконометрика как наука располагает своими методами.
Методы эконометрики.
Эконометрика как система специфических методов начала развиваться с осознания своих задач - отражения особенностей экономических переменных и связей между ними. Поэтому в основе методов эконометрики лежат методы математической статистики, в частности, метод корреляционно-регрессионного анализа.
В ходе развития эконометрики в эконометрическом моделировании выделились четыре основные группы методов:
Классическая линейная модель парной и множественной регрессии (или парный и множественный регрессионный анализ), с применением классического метода наименьших квадратов (МНК);
Обобщенная классическая линейная модель парной и множественной регрессии и обобщенный МНК;
методы статистического анализа временных рядов (выделение тренда и других компонент);
методы анализа систем одновременных уравнений (статистическое оценивание исходных наблюдений и найденных результатов, методы классификации и снижения размерности).
Регрессионный анализ. Это метод, используемый в эконометрике для оценки уравнения, которое в наибольшей степени соответствует совокупности наблюдений зависимых и независимых переменных, и тем самым дающий наилучшую оценку истинного соответствия между этими переменными. С помощью оцененного таким образом уравнения можно предсказать, каково будет значение зависимой переменной для данного значения независимой переменной. Простейшим примером регрессии является парная линейная регрессия всего одной зависимой переменной (скажем, располагаемый доход и потребительские расходы). Задача заключается в подборе прямой линии к совокупности данных, состоящей из пар наблюдений дохода и потребления. Линию, которая лучше всего подходит к данным, нужно выбирать так, чтобы сумма квадратов значений вертикальных отклонений точек от линии была минимальной. Этот метод, называемый методом наименьших квадратов, применяется при анализе большинства регрессий. Степень приближения регрессионной линии к наблюдениям измеряется коэффициентом корреляции. Там, где предполагается, что на зависимую переменную существенно влияет более чем одна независимая переменная, используется метод множественной линейной регрессии.
В уравнение регрессии могут включаться переменные не только в первой, но и во второй и более высоких степенях - с целью отразить свойство оптимальности экономических переменных: наличия значений, при которых достигается мини-максное воздействие на зависимую переменную. Таково, например, влияние внесения удобрений на урожайность: до определенного уровня насыщение почвы удобрениями способствует росту урожайности; по достижении оптимального уровня насыщения удобрениями его дальнейшее наращивание не приводит к росту урожайности. То же можно сказать о воздействии многих социально-экономических переменных (например, возраста рабочих на уровень производительности труда или влияния дохода на потребление некоторых продуктов питания).
Методы статистического анализа временных рядов применяются для изучения и прогнозирования, например, объема продаж туристических путевок, спроса на железнодорожные и авиабилеты, при краткосрочном прогнозировании процентных ставок и т.д. Это методы, исследующие поведение анализируемой величины на основе ряда наблюдений, сделанных в фиксированные промежутки времени. Данные методы формируют модели тренда, сезонности, тренда и сезонности, а также модели, в которых присутствует циклическая компонента, формирующая изменение анализируемого признака. Эти изменения могут быть обусловлены действием долговременных циклов экономической, демографической или астрофизической природы. Среди факторов, влияющих на значения временного ряда, выделяют, таким образом:
долговременные, формирующие в длительной перспективе общую тенденцию анализируемого признака;
сезонные, формирующие периодически повторяемые в определенное время года колебания анализируемого признака;
циклические, формирующие изменения анализируемого признака в результате воздействия циклов;
случайные, не поддающиеся учету и регистрации, как результат воздействия случайных, внешних факторов.
Методы анализа систем одновременных уравнений. При статистическом исследовании сложных экономических систем отдельно взятое уравнение множественной регрессии не может охарактеризовать истинные влияния отдельных признаков на вариацию результирующей переменной. Потому в экономических, биометрических и социологических исследованиях важное место занимает проблема описания структуры связей между переменными системой так называемых одновременных уравнений, или структурных уравнений. Так, при оценке эффективности производства нельзя руководствоваться только моделью рентабельности. Она должна быть дополнена моделью производительности труда, а также моделью себестоимости единицы продукции. Особенно возрастает потребность в использовании системы взаимосвязанных уравнений, если от исследований на микроуровне переходим к исследованиям на макроуровне. Модель национальной экономики включает в себя систему уравнений: функции потребления, инвестиций заработной платы, количество доходов и т.д. Это связано с тем, что макроэкономические показатели, являясь обобщающими показателями состояния экономики, чаще всего тесно взаимосвязаны. Расходы на конечное потребление в экономике зависят от валового национального дохода, а величина валового национального дохода, в свою очередь, рассматривается как функция инвестиций.
Абстрактные модели рыночной экономики. Сложность экономических процессов и необходимость их количественного измерения не позволяют современному экономисту ограничиваться в своей работе применением инструментов отдельных экономических дисциплин. Так, например, невозможно сделать прогноз о том, будет ли пользоваться спросом новый продукт, если рассматривать этот процесс только с точки зрения экономической теории, то есть закона спроса и предложения.
Рассмотрение экономических отношений и процессов с точки зрения выявления каких-либо функциональных взаимосвязей, пропорций или некоторых алгоритмов, характеризующих данные отношения и процессы, приводит к необходимости использования существующих экономико-математических методов и моделей для упрощенного отражения экономической действительности с помощью уравнений и графиков, описывающих взаимосвязи различных переменных. Для осуществления прогноза экономисту необходимо применить целый комплекс экономических наук, синтез которых и является сутью эконометрики. То есть встает задача построить абстрактную эконометрическую модель, соответствующую реальному экономическому процессу. Примерами экономических моделей являются модели потребительского выбора, модели фирмы, модели экономического роста, модели равновесия на товарных, факторных и финансовых рынках и многие другие. Особенность, отличающая эконометрические модели, например, от моделей математической экономики, состоит в подтверждении теоретических гипотез фактическими данными. Только когда символически представленные в экономических взаимосвязях коэффициенты заменяются конкретными численными оценками, полученными на базе соответствующих экономических данных, возникает эконометрическая модель.
Основные типы абстрактных моделей рыночной экономики.
Математические модели, используемые в экономике и эконометрике, можно подразделять на классы по ряду признаков, относящихся к особенностям моделируемого объекта, цели моделирования и используемого инструментария: модели макро- и микроэкономические, теоретические и прикладные, оптимизационные и равновесные, статические и динамические.
Макроэкономические модели описывают экономику как единое целое, связывая между собой укрупненные материальные и финансовые показатели: ВНП, потребление, инвестиции, занятость, процентную ставку, количество денег и другие.
Микроэкономические модели описывают взаимодействие структурных и функциональных составляющих экономики, либо поведение отдельной такой составляющей в рыночной среде.
Вследствие разнообразия типов экономических элементов и форм их взаимодействия на рынке микроэкономическое моделирование занимает основную часть экономико-математической теории. Наиболее серьезные теоретические результаты в микроэкономическом моделировании в последние годы получены в исследовании стратегического поведения фирм в условиях олигополии с использованием аппарата теории игр.
Теоретические модели позволяют изучать общие свойства экономики и ее характерных элементов дедукцией выводов из формальных предпосылок. Прикладные модели дают возможность оценить параметры функционирования конкретного экономического объекта и сформулировать рекомендации для принятия практических решений. К прикладным относятся прежде всего эконометрические модели, оперирующие числовыми значениями экономических переменных и позволяющие статистически значимо оценивать их на основе имеющихся наблюдений.
В моделировании рыночной экономики особое место занимают равновесные модели. Они описывают такие состояния экономики, когда результирующая всех сил, стремящихся вывести ее из данного состояния, равна нулю. В нерыночной экономике неравновесие по одним параметрам (например, дефицит) компенсируется другими факторами (черный рынок, очереди и т.п.). Равновесные модели описательны. В нашей стране долгое время преобладал нормативный подход в моделировании, основанный на оптимизации. Оптимизация в теории рыночной экономики присутствует в основном на микроуровне (максимизация полезности потребителем или прибыли фирмой); на макроуровне результатом рационального выбора поведения экономическими субъектами оказывается некоторое состояние равновесия.
В моделях статических описывается состояние экономического объекта в конкретный момент или период времени; динамические модели включают взаимосвязи переменных во времени. В статических моделях, обычно зафиксированы значения ряда величин, являющихся переменными в динамике, -- например, капитальных ресурсов, цен и т.п. Динамическая модель не сводится к простой сумме ряда статических, а описывает силы и взаимодействия в экономике, определяющие ход процессов в ней. Динамические модели обычно используют аппарат дифференциальных и разностных уравнений, вариационного исчисления.
Детерминированные модели предполагают жесткие функциональные связи между переменными моделями. Стохастические модели допускают наличие случайных воздействий на исследуемые показатели и используют инструментарий теории вероятностей и математической статистики для их описания.
2. Модели частотного анализа
эконометрика анализ корреляция регрессионный
Модели частотного анализа применяются для исследования экономических процессов и явлений, описываемых с помощью временных рядов. Вместе с долговременными колебаниями во временных рядах появляются более или менее регулярные колебания. Эти изменения наблюдаемых значений могут быть строго периодическими или близкими к таковым и оцениваться в частотном аспекте. Для выявления наличия и устойчивости периода колебаний обычно используется следующий аппарат частотного анализа:
гармонический анализ;
спектральный анализ;
частотная фильтрация;
кросс-спектральный анализ.
Этот аппарат позволяет с разных позиций анализировать исследуемый показатель, однако он эффективен лишь при наличии достаточно большого объема данных (по разным литературным источникам желательно иметь 200-300 наблюдений, но не менее 50 наблюдений), из которых предварительно исключена тенденция (за исключением методов частотной фильтрации).
Дадим определение основных терминов частотного анализа.
Интервал времени, необходимый для того, чтобы временной ряд начал повторяться, называется периодом. Он измеряется числом единиц времени за цикл и не является единственным. Если между пиками (высшими точками) или впадинами (низшими точками) проходит, например, 10 месяцев, то период этого цикла равен 10 месяцам.
Величина, обратная периоду, называется частотой ряда. Она указывает число повторений цикла в единицу времени и поэтому измеряется числом циклов в единицу времени. Если между пиками (высшими точками) или впадинами (низшими точками) проходит, например, 10 месяцев, то частота цикла равна 1/10.
Амплитуда периодического ряда - это отклонение от среднего значения до пика или впадины.
Фаза представляет собой расстояние между началом отсчета времени и ближайшим пиковым значением.
Гармонический анализ. Временной ряд наблюдений может быть представлен с помощью линейных комбинаций функций времени - синусов и косинусов на основании конечного преобразования Фурье. Гармонический анализ позволяет выявит наиболее существенные гармоники. Пусть Y(t) - временной ряд, t = 1,2,3,...,T. Тогда имеет место следующее представление ряда:
,
где - оценка математического ожидания ряда Y(t). Последнее слагаемое добавляется в том случае, когда T- четное число. Коэффициенты вычисляются по соотношениям:
Таким образом, временной ряд представлен в виде суммы гармоник. Мощность каждой гармоники равна: , k-я гармоника считается статистически значимой, если она вносит существенный вклад в дисперсию временного ряда, то есть если отвергается статистическая гипотеза о том, что . Для проверки гипотезы вычисляется критерий:
,
где -оценка дисперсии отклонения вычисляемых значений от фактических:
.
Вычисляемая величина имеет F-распределение с соответствующими степенями свободы. Гипотеза отвергается, то есть гармоника считается значимой, если вычисленная величина больше, чем 95% точка F-распределения
с
и
тепенями свободы. Гипотеза отвергается, то есть гармоника считается значимой, если вычисленная величина больше, чем 95% точка F-распределения с соответствующими степенями свободы.
Спектральный анализ. Рассмотрим алгоритм спектрального анализа. Пусть x(t) - временной ряд, t = 0,1,2,3,...,T - временной ряд. Тогда его периодограмма рассчитывается так:
.
Предполагается, что исходные данные квантованы с интервалом 1, и, следовательно, частота Найквиста для них равна 0,5. Поэтому периодограмма и спектральная плотность рассчитываются на интервале от 0 до 0,5 в точках f(j)=j/2M, j=0,1,...,M.
Оценка спектральной плотности основана на оценке Бартлетта, которая является усреднением периодограмм, вычисленных по непересекающимся отрезкам временных рядов. Пусть
, I=0,1,...,L-1,
Где V - ширина временного интервала;
I - номер интервала;
S - смещение текущего временного интервала относительно предыдущего. Тогда оценка спектральной плотности получается как:
.
Параметры, необходимые для расчета спектра мощности, рассчитываются по следующему алгоритму:
,
где n - число наблюдений. При V<10 принимается V=10, при V>50 принимается V=50 и S=V/2.
Кросс-спектральный анализ. Кросс-спектральный анализ оценивает связь между частотными составляющими двух временных рядов при помощи параметров когерентности, фазового сдвига и коэффициента усиления. Рассчитываются оценки взаимных ковариационных функций:
.
Оценка ко-спектра (действительной части спектра):
Оценка квадратурного спектра (мнимой части):
Оценка когерентности:
Оценка фазового сдвига:
Оценка коэффициента усиления:
Оценка спектра для ряда x имеет следующий вид:
Аналогично получается оценка спектра для ряда y.
Интерпретация результатов кросс-спектрального анализа - довольно тонкий процесс.
Отметим, что когерентность аналогична квадрату коэффициента корреляции на соответствующей частоте и интерпретируется таким же образом. Коэффициент усиления есть, по сути, коэффициент линейной регрессии процесса по процессу на соответствующей частоте. Фазовый сдвиг характеризует временное смещение между составляющими двух процессов.
Частотная фильтрация. Фильтрация осуществляется при помощи высокочастотного и низкочастотного фильтра, для каждого из которых рассчитывается соответствующая силовая и фазовая характеристики. Низкочастотный фильтр предназначен для устранения тренда (низкочастотной составляющей временного ряда наблюдений). Высокочастотный фильтр, наоборот, предназначен для выделения тренда из исходных данных.
Выход низкочастотного фильтра получается из выражения:
, где
, ,, ,
- частота отсечки, является оценкой высокочастотной составляющей. При оценке его теряются два первых наблюдения. Оценкой тренда в этом случае является ряд
.
Выход высокочастотного фильтра получается из выражения:
где
, ,, ,
- частота отсечки, является оценкой низкочастотной составляющей. При оценке теряются два первых наблюдения. Ряд может быть использован для прогнозирования.
3. Коэффициенты корреляции рангов Спирмена, Кендалла, коэффициент Фехнера
Потребности экономической и социальной практики требуют разработки методов количественного описания процессов, позволяющих точно регистрировать не только количественные, но и качественные факторы. При условии, что значения качественных признаков могут быть упорядочены, или проранжированы по степени убывания (возрастания) признака, возможно оценить тесноту связи между качественными признаками. Под качественным подразумевается признак, который невозможно измерить точно, но он позволяет сравнивать объекты между собой и, следовательно, расположить их в порядке убывания или возрастания качества. И реальным содержанием измерений в ранговых шкалах является тот порядок, в котором выстраиваются объекты по степени выраженности измеряемого признака.
В практических целях использование ранговой корреляции весьма полезно. Например, если установлена высокая ранговая корреляция между двумя качественными признаками изделий, то достаточно контролировать изделия только по одному из признаков, что удешевляет и ускоряет контроль.
В качестве примера можно рассмотреть наличие связи между обеспеченностью товарной продукцией ряда предприятий и накладными расходами по реализации. В ходе 10 наблюдений получена следующая таблица:
Обеспеченность товарной продукцией, млн.руб. |
X |
12,0 |
18,8 |
11,0 |
29,0 |
17,5 |
23,4 |
35,6 |
15,4 |
26,1 |
20,7 |
|
Накладные расходы по реализации, тыс.руб. |
Y |
462 |
939 |
506 |
1108 |
872 |
765 |
1368 |
1002 |
998 |
804 |
Упорядочим значения X по возрастанию, при этом каждому значению поставим в соответствие его порядковый номер (ранг):
Обеспеченность товарной продукцией, млн.руб. |
X |
11,0 |
12,0 |
15,4 |
17,5 |
18,8 |
20,7 |
23,4 |
26,1 |
29,0 |
35,0 |
|
Ранг X |
1 |
2 |
3 |
4 |
5 |
6 |
7 |
8 |
9 |
10 |
Таким образом,
.
Построим следующую таблицу, куда записываются пары X и Y, полученные в результате наблюдения со своими рангами:
X |
12,0 |
18,8 |
11,0 |
29,0 |
17,5 |
23,4 |
35,6 |
15,4 |
26,1 |
20,7 |
|
2 |
5 |
1 |
9 |
4 |
7 |
10 |
3 |
8 |
6 |
||
Y |
462 |
939 |
506 |
1108 |
872 |
765 |
1368 |
1002 |
998 |
804 |
|
1 |
6 |
2 |
9 |
5 |
3 |
10 |
8 |
7 |
4 |
Обозначая разность рангов как , запишем формулу вычисления выборочного коэффициента корреляции Спирмена:
,
где n - число наблюдений, оно же число пар рангов.
Коэффициент Спирмена обладает следующими свойствами:
Если между качественными признаками X и Y имеется полная прямая зависимость в том смысле, что ранги объектов совпадают при всех значениях i, то выборочный коэффициент корреляции Спирмена равен 1. Действительно, подставив в формулу , получим 1.
Если между качественными признаками X и Y имеется полная обратная зависимость в том смысле, что рангу соответствует ранг , то выборочный коэффициент корреляции Спирмена равен -1.
Действительно, если
, , ...
,
Тогда
Подставив значение в формулу коэффициента корреляции Спирмена, получим -1.
Если между качественными признаками нет ни полной прямой, ни полной обратной связи, то выборочный коэффициент корреляции Спирмена заключен между -1 и 1, причем чем ближе к 0 его значение, тем связь между признаками меньше.
По данным вышеприведенного примера найдем значение P, для этого достроим таблицу значениями и :
X |
12,0 |
18,8 |
11,0 |
29,0 |
17,5 |
23,4 |
35,6 |
15,4 |
26,1 |
20,7 |
|
2 |
5 |
1 |
9 |
4 |
7 |
10 |
3 |
8 |
6 |
||
Y |
462 |
939 |
506 |
1108 |
872 |
765 |
1368 |
1002 |
998 |
804 |
|
1 |
6 |
2 |
9 |
5 |
3 |
10 |
8 |
7 |
4 |
||
1 |
-1 |
-1 |
0 |
-1 |
4 |
0 |
-5 |
1 |
2 |
||
1 |
1 |
1 |
0 |
1 |
16 |
0 |
25 |
1 |
4 |
.
Выборочный коэффициент корреляции Кендалла. Можно оценивать связь между двумя качественными признаками, используя коэффициент ранговой корреляции Кендалла.
Пусть ранги объектов выборки объема n равны:
по признаку X:
по признаку Y: . Допустим, что правее имеется рангов, больших , правее имеется рангов, больших , правее имеется рангов, больших . Введем обозначение суммы рангов
.
Аналогично введем обозначение как сумму количества рангов, лежащих правее , но меньших .
Выборочный коэффициент корреляции Кендалла записывается формулой:
, где n - объем выборки.
Коэффициент Кендалла обладает теми же свойствами, что и коэффициент Спирмена:
Если между качественными признаками X и Y имеется полная прямая зависимость в том смысле, что ранги объектов совпадают при всех значениях i, то выборочный коэффициент корреляции Кендалла равен 1. Действительно, правее имеется n-1 рангов, больших , поэтому , таким же образом устанавливаем, что . Тогда . И коэффициент Кендалла равен: .
Если между качественными признаками X и Y имеется полная обратная зависимость в том смысле, что рангу соответствует ранг , то выборочный коэффициент корреляции Кендалла равен -1. Правее нет рангов, больших , поэтому . Аналогично . Подставляя значение R+=0 в формулу коэффициента Кендалла, получим -1.
При достаточно большом объме выборки и при значениях коэффициентов ранговой корреляции, не близких к 1, имеет место приближенное равенство:
.
Коэффициент Кендалла дает более осторожную оценку корреляции, чем коэффициент Спирмена с (числовое значение с всегда меньше, чем ). Хотя вычисление коэффициента с менее трудоемко, чем вычисление коэффициента , последний легче пересчитать, если к ряду добавляется новый член.
Важное достоинство коэффициента состоит в том, что с его помощью можно определить коэффициент частной ранговой корреляции, позволяющий оценить степень "чистой" взаимосвязи двух ранговых признаков, устранив влияние третьего:
Значимость коэффициентов ранговой корреляции. При определении силы ранговой корреляции на основе выборочных данных необходимо рассмотреть следующий вопрос: с какой степенью надежности можно полагаться на заключение о том, что в генеральной совокупности существует корреляция, если получен некоторый выборочный коэффициент ранговой корреляции. Другими словами, следует проверить значимость наблюдавшихся корреляций рангов исходя из гипотезы о статистической независимости двух рассматриваемых ранжировок.
При сравнительно большом объеме n выборки проверка значимости коэффициентов ранговой корреляции может осуществляться с помощью таблицы нормального распределения (табл. 1 приложения). Для проверки значимости коэффициента Спирмена с (при n>20) вычисляют значение
,
а для проверки значимости коэффициента Кендалла ф (при n>10) вычисляют значение
,
где S=R+- R-, n - объем выборки.
Далее задаются уровнем значимости б, определяют по таблице критических точек распределения Стьюдента критическое значение tкр(б,k) и сравнивают с ним вычисленное значение или . Число степеней свободы принимается k = n-2. Если или > tкр , то значения или признаются значимыми.
Коэффициент корреляции Фехнера.
Наконец, следует упомянуть коэффициент Фехнера, характеризующий элементарную степень тесноты связи, который целесообразно использовать для установления факта наличия связи, когда существует небольшой объем исходной информации. Основой его вычисления является учет направления отклонений от средней арифметической варианты каждого вариационного ряда и определение согласованности знаков этих отклонений для двух рядов, связь между которыми измеряется.
Данный коэффициент определяется по формуле:
где na - количество совпадений знаков отклонений индивидуальных величин от их средней арифметической; nb - соответственно количество несовпадений.
Коэффициент Фехнера может изменяться в пределах -1,0<= Кф<= +1,0.
Прикладные аспекты ранговой корреляции. Как уже отмечалось, коэффициенты ранговой корреляции могут использоваться не только для качественного анализа взаимосвязи двух ранговых признаков, но и при определении силы связи между ранговым и количественным признаками. В этом случае значения количественного признака упорядочиваются и им приписываются соответствующие ранги.
Существует ряд ситуации, когда вычисление коэффициентов ранговой корреляции целесообразно и при определении силы связи двух количественных признаков. Так, при существенном отклонении распределения одного из них (или обоих) от нормального распределения определение уровня значимости выборочного коэффициента корреляции r становится некорректным, в то время как ранговые коэффициенты с и ф не сопряжены с такими ограничениями при определении уровня значимости.
Другая ситуация такого рода возникает, когда связь двух количественных признаков имеет нелинейный (но монотонный) характер. Если количество объектов в выборке невелико или если для исследователя существенен знак связи, то использование корреляционного отношения з может оказаться здесь неадекватным. Вычисление же коэффициента ранговой корреляции позволяет обойти указанные трудности.
Практическая часть
Задача 1. Корреляционно-регрессионный анализ
Вариант 1? |
|||
п/п |
Кол-воИзделий |
ОтказОборудования, % |
|
1 |
10 |
25 |
|
2 |
20 |
20 |
|
3 |
30 |
15 |
|
4 |
50 |
10 |
|
5 |
40 |
5 |
|
? |
30 |
Постановка и формализация задачи:
Дана эмпирическая выборка, составленная на основе ряда наблюдений за состоянием оборудования (на предмет отказа) и количеством изготовленных изделий. Выборка неявно характеризует взаимосвязь между объемом отказавшего оборудования и количеством изготовленных изделий. По смыслу выборки видно, что изготовленные изделия производятся на оставшемся в строю оборудовании так как чем больше % отказавшего оборудования, тем меньше изготовленных изделий. Требуется провести исследование выборки на корреляционно-регрессионную зависимость, то есть установить форму зависимости, оценить функцию регрессии (регрессионный анализ), а также выявить связь между случайными переменными и оценить ее тесноту (корреляционный анализ). Дополнительной задачей корреляционного анализа является оценка уравнения регрессии одной переменной по другой. Кроме того, необходимо спрогнозировать количество выпущенных изделий при 30%-ном отказе оборудования.
Формализуем приведенную выборку в таблице, обозначив данные «Отказ оборудования, %» как X, данные «Количество изделий» как Y:
Исходные данные. Таблица 1
№ п\п |
1 |
2 |
3 |
4 |
5 |
6 |
|
X |
25 |
20 |
15 |
10 |
5 |
30 |
|
Y |
10 |
20 |
30 |
50 |
40 |
По физическому смыслу задачи видно, что количество выпущенных изделий Y напрямую зависит от % отказа оборудования, то есть налицо зависимость Y от X. При проведении регрессионного анализа требуется найти математическую зависимость (регрессию), связывающую величины X и Y. При этом регрессионный анализ, в отличие от корреляционного, предполагает, что величина X выступает как независимая переменная, или фактор, величина Y - как зависимая от нее, или результативный признак. Таким образом, требуется произвести синтезирование адекватной экономико-математической модели, т.е. определить (найти, подобрать) функцию Y = f(X), характеризующую зависимость между величинами X и Y, используя которую можно будет спрогнозировать значение Y при X = 30. Решение данной задачи может быть выполнено с помощью корреляционно-регрессионного анализа.
Краткий обзор методов решения корреляционно-регрессионных задач и обоснование выбираемого метода решения.
Методы регрессионного анализа по числу факторов, влияющих на результативный признак, подразделяются на одно- и многофакторные. Однофакторные - число независимых факторов = 1, т.е. Y = F(X)
многофакторный - число факторов > 1, т.е.
По числу исследуемых зависимых переменных (результативных признаков) регрессионные задачи также можно разделить на задачи с одним и многими результативными признаками. В общем виде задача с многими результативными признаками может быть записана:
…
Метод корреляционно-регрессионного анализа заключается в нахождении параметров аппроксимирующей(приближающей) зависимости вида
.
Поскольку в приведенной задаче фигурирует только одна независимая переменная, т. е. исследуется зависимость только от одного фактора, влияющего на результат, следует применить исследование на однофакторную зависимость, или парную регрессию.
При наличии только одного фактора зависимость определяется в виде:
.
Форма записи конкретного уравнения регрессии зависит от выбора функции, отображающей статистическую связь между фактором и результативным признаком и включает следующие:
линейная регрессия, уравнение вида ,
параболическая, уравнение вида
кубическая, уравнение вида
гиперболическая, уравнение вида
полулогарифмическая, уравнение вида
показательная, уравнение вида
степенная, уравнение вида .
Нахождение функции сводится к определению параметров регрессионного уравнения и оценке достоверности самого уравнения. Для определения параметров можно использовать как метод наименьших квадратов, так и метод наименьших модулей.
Первый из них заключается в том, чтобы сумма квадратов отклонений эмпирических значений Yi от рассчитанных средних Yi, была минимальной.
Метод наименьших модулей заключается в минимизации суммы модулей разности эмпирических значений Yi и рассчитанных средних Yi.
Для решения задачи выберем метод наименьших квадратов, как наиболее простой и дающий хорошие по статистическим свойствам оценки.
Технология решения задачи регрессионного анализа с помощью метода наименьших квадратов.
Определить вид зависимости (линейная, квадратичная, кубическая и т.д.) между переменными можно с помощью оценки величины отклонения фактического значения y от расчетного:
min.,
где - эмпирические значения, - расчетные значения по аппроксимирующей функции. Оценивая значения Si для различных функций и выбирая наименьшее из них, подбираем аппроксимирующую функцию.
Вид той или иной функции определяется с помощью нахождения коэффициентов , которые находятся для каждой функции как решения определенной системы уравнений:
линейная регрессия, уравнение вида , система -
параболическая, уравнение вида , система -
кубическая, уравнение вида , система -
и так далее.
Решив систему, находим , с помощью которых приходим к конкретному выражению аналитической функции, имея которую, находим расчетные значения . Далее есть все данные для нахождения оценки величины отклонения S и анализа на минимум.
Для линейной зависимости оцениваем тесноту связи между фактором X и результативным признаком Y в виде коэффициента корреляции r:
, где, , , ,
, .
- среднее значение показателя;
- среднее значение фактора;
y - экспериментальное значение показателя;
x - экспериментальное значение фактора;
- среднеквадратическое отклонение по х;
- среднеквадратическое отклонение по y.
Если коэффициент корреляции r = 0, то считают, что связь между признаками незначительна либо отсутствует, если r = 1, то между признаками существует весьма высокая функциональная связь.
Используя таблицу Чеддока, можно провести качественную оценку тесноты корреляционной связи между признаками:
Таблица Чеддока Таблица 2.
Диапазон изменения |
0.1 - 0.3 |
03. - 0.5 |
0.5 - 0.7 |
0.7 - 0.9 |
0.9 - 0.99 |
|
Качественная характеристика связи |
Слабая |
Умеренная |
Заметная |
Высокая |
Весьма высокая |
Для нелинейной зависимости определяется корреляционное отношение (0 1) и индекс корреляции R, которые вычисляются по следующим зависимостям.
, ,
где значение - значение показателя, вычисленное по регрессионной зависимости.
В качестве оценки точности вычислений используем величину средней относительной ошибки аппроксимации
.
При высокой точности лежит в пределах 0-12%.
Для оценки подбора функциональной зависимости используем коэффициент детерминации
.
Коэффициент детерминации используется как «обобщенная» мера качества подбора функциональной модели, поскольку он выражает соотношение между факторной и общей дисперсией, точнее долю факторной дисперсии в общей.
Для оценки значимости индекса корреляции R применяется F-критерий Фишера. Фактическое значение критерия определяется по формуле:
где m - число параметров уравнения регрессии, n - число наблюдений. Величина сравнивается с критическим значением , которое определяется по таблице F-критерия с учетом принятого уровня значимости и числа степеней свободы и . Если , то величина индекса корреляции R признается существенной.
Для выбранной формы регрессии вычисляются коэффициенты уравнения регрессии. Результаты вычислений для удобства включаются в таблицу следующей структуры (в общем виде, количество колонок и их вид меняются в зависимости от вида регрессии):
Таблица 3
№ |
... |
||||||||||||
1 |
2 |
3 |
4 |
5 |
6 |
7 |
8 |
9 |
10 |
11 |
12 |
13 |
Решение задачи.
Провелись наблюдения за экономическим явлением - зависимостью выпуска изделий от процента отказа оборудования. Получена совокупность значений.
Выбранные значения описаны в таблице 1.
Строим график эмпирической зависимости по приведенной выборке (рис. 1)
По виду графика определяем, что аналитическую зависимость можно представить в виде линейной функции:
Рассчитаем парный коэффициент корреляции для оценки взаимосвязи между X и Y:
Построим вспомогательную таблицу:
Таблица 4
№ |
|||||||||
1 |
2 |
3 |
4 |
5 |
6 |
7 |
8 |
9 |
|
1 |
25 |
10 |
250 |
625 |
100 |
400 |
12 |
-2 |
|
2 |
20 |
20 |
400 |
400 |
25 |
100 |
21 |
-1 |
|
3 |
15 |
30 |
450 |
225 |
0 |
0 |
30 |
0 |
|
4 |
10 |
50 |
500 |
100 |
25 |
400 |
39 |
11 |
|
5 |
5 |
40 |
200 |
25 |
100 |
100 |
48 |
-8 |
|
Сумма |
75 |
150 |
1800 |
1375 |
250 |
1000 |
150 |
0 |
|
Среднее |
15 |
30 |
360 |
275 |
50 |
200 |
30 |
0 |
Значения колонки и далее заполним после определения коэффициентов и линейной функции.
Решаем систему уравнений для нахождения коэффициентов и :
,
из первого уравнения , подставляя значение
во второе уравнение, получим:
откуда
. Находим
==
=(150+135)/5=57
Получаем вид уравнения регрессии:
(1)
далее находим значения , вычисляя их по уравнению регрессии и заполняем колонку в таблице 4.
9. Для оценки тесноты найденной связи воспользуемся коэффициентом корреляции r:
По таблице Чеддока устанавливаем, что для r = 0.90 связь между X и Y весьма высокая, следовательно достоверность уравнения регрессии также высока. Для оценки точности вычислений используем величину средней относительной ошибки аппроксимации:
Считаем, что величина обеспечивает высокую степень достоверности уравнения регрессии.
Для линейной связи между X и Y индекс детерминации равен квадрату коэффициента корреляции r : . Следовательно, 81% общей вариации объясняется изменением факторного признака X.
Для оценки значимости индекса корреляции R, который в случае прямолинейной зависимости по абсолютной величине равен коэффициенту корреляции r, применяется F-критерий Фишера. Определяем фактическое значение по формуле:
,
где m - число параметров уравнения регрессии, n - число наблюдений. То есть n = 5, m = 2.
С учетом принятого уровня значимости =0,05 и числа степеней свободы и получаем критическое табличное значение . Поскольку , величина индекса корреляции R признается существенной.
Вычислим прогнозное значение Y при X = 30:
.
Построим график найденной функции:
Размещено на http://www.allbest.ru/
Размещено на http://www.allbest.ru/
11. Определяем ошибку коэффициента корреляции по величине среднеквадратичного отклонения
,
а затем определяем значение нормированного отклонения
.
Из соотношения > 2 с вероятностью 95% можно говорить о значимости полученного коэффициента корреляции.
Задача 2. Линейная оптимизация
Вариант 1.
Планом развития региона предполагается ввести в действие 3 нефтяных месторождения с суммарным объемом добычи равным 9 млн.т. На первом месторождении объем добычи составляет не менее 1 млн.т, на втором - 3 млн. т, на третьем - 5 млн.т. Для достижения такой производительности необходимо пробурить не менее 125 скважин. Для реализации данного плана выделено 25 млн. руб. капитальных вложений (показатель К) и 80 км труб (показатель L).
Требуется определить оптимальное (максимальное) количество скважин для обеспечения плановой производительности каждого месторождения. Исходные данные по задаче приведены в таблице.
Исходные данные
Место-рождение |
Добыча, млн.т |
Фонд скважин |
Дебет 1 скважи-ны |
Длина трубо-провода для 1 скважины, км. |
Стоимость строительства 1 скважины, тыс. руб. |
K |
L |
|
123 |
135 |
1015100 |
10020050 |
1.02.00.5 |
300200150 |
|||
Итого: |
9 |
125 |
350 |
25.0 |
80.0 |
Постановка задачи приведена выше.
Формализуем заданные в задаче условия и ограничения. Целью решения данной оптимизационной задачи является нахождение максимального значения добычи нефти при оптимальном количестве скважин по каждому месторождению с учетом существующих ограничений по задаче.
Целевая функция в соответствии с требованиями задачи примет вид:
где - количество скважин по каждому месторождению.
Существующие ограничения по задаче на:
длину прокладки труб:
;
число скважин на каждом месторождении:
X1 Ј 10,
X2 Ј 15,
X3 Ј 100;
стоимость строительства 1 скважины:
.
Задачи линейной оптимизации решаются, например, следующими методами:
Графически
Симплекс-методом
Использование графического способа удобно только при решении задач линейной оптимизации с двумя переменными. При большем числе переменных необходимо применение алгебраического аппарата. Рассмотрим общий метод решения задач линейной оптимизации называемый симплекс-методом .
Симлекс-метод - это характерный пример итерационных вычислений, используемых при решении большинства оптимизационных задач. Рассматриваются итерационные процедуры такого рода, обеспечивающие решение задач с помощью моделей исследования операций.
Для решения оптимизационной задачи с помощью симплекс-метода необходимо чтобы число неизвестных Xi было больше числа уравнений, т.е. система уравнений
(1)
удовлетворяла отношению m<n, причем среди уравнений системы не должно быть линейно-зависимых уравнений, т.е. ранг матрицы
A=был равен m.
Обозначим столбца матрицы A как , а столбец свободных членов как
.
Базисным решением системы (1) называется набор из m неизвестных которые являются решением системы (1).
Кратко алгоритм симплекс-метода описывается следующим образом:
Исходное ограничение , записанное в виде неравенства типа <= ( =>) , можно представить в виде равенства, прибавляя остаточную переменную к левой части ограничения ( вычитая избыточную переменную из левой части ) .
Например, в левую часть исходного ограничения
вводится остаточная переменная , в результате чего исходное неравенство обращается в равенство
,
Если исходное ограничение определяет расход труб, то переменную следует интерпретировать как остаток, или неиспользованную часть данного ресурса.
Максимизация целевой функции эквивалентна минимизации той же функции , взятой с противоположным знаком. То есть в нашем случае
эквивалентна
Составляется симплекс-таблица для базисного решения следующего вида:
… |
… |
||||||||||
… |
… |
||||||||||
… |
В данной таблице обозначают, что после решения задачи в этих клетках будет стоять базисное решение. - частные от деления столбца на один из столбцов ; - дополнительные множители обнуления значений в клетках таблицы, относящихся к разрешающему столбцу. - min значение целевой функции -Z, - значения коэффициентов в целевой функции при неизвестных .
Среди значений находят любое положительное. Если такого нет, то задача считается решенной. Выбирают любой столбец таблицы, в котором есть , этот столбец называется «разрешающим» столбцом. Если среди элементов разрешающего столбца нет положительных чисел, то задача неразрешима вследствие неограниченности целевой функции на множестве ее решений. Если положительные числа в разрешающем столбце присутствуют, переходят к пункту 5.
Столбец заполняется дробями, в числителе которых - элементы столбца , а в знаменателе - соответствующие элементы разрешающего столбца. Из всех значений выбирается наименьшее. Строка, в которой получилось наименьшееназывается «разрешающей» строкой. На пересечении разрешающей строки и разрешающего столбца находят разрешающий элемент, который выделяют каким-либо образом, например, цветом.
На основе первой симплекс-таблицы составляется следующая, в которой:
Заменяется вектор-строка на вектор-столбец
разрешающая строка заменяется этой же строкой, поделенной на разрешающий элемент
каждая из остальных строк таблицы заменяется на сумму этой строки с разрешающей, умноженной на специально подобранный дополнительный множитель с целью получения 0 в клетке разрешающего столбца.
С новой таблицей обращаемся у пункту 4.
Решение задачи.
Исходя из постановки задачи имеем следующую систему неравенств:
и целевую функцию
Преобразуем систему неравенств в систему уравнений, введя дополнительные переменные :
Целевую функцию приведем к ей эквивалентной:
Построим исходную симплекс-таблицу:
80 |
1 |
2 |
0,5 |
1 |
0 |
0 |
0 |
0 |
80 |
1 |
|||||
25 |
0,3 |
0,2 |
0,15 |
0 |
1 |
0 |
0 |
0 |
83.33 |
1 |
|||||
10 |
1 |
0 |
0 |
0 |
0 |
1 |
0 |
0 |
10 |
-1 |
-0.3 |
1 |
-100 |
||
15 |
0 |
1 |
0 |
0 |
0 |
0 |
1 |
0 |
--- |
||||||
100 |
0 |
0 |
1 |
0 |
0 |
0 |
0 |
1 |
--- |
||||||
0 |
100 |
200 |
50 |
0 |
0 |
0 |
0 |
0 |
1 |
Выберем разрешающий столбец . Рассчитаем столбец :
,,
Заносим значения в таблицу. По наименьшему из них = 10 определяем разрешающую строку: . На пересечении разрешающей строки и разрешающего столбца находим разрешающий элемент = 1. Заполняем часть таблицы дополнительными множителями, такими, что: помноженная на них разрешающая строка, добавленная к остальным строкам таблицы, образовывает 0-ли в элементах разрешающего столбца.
Составляем вторую симплекс-таблицу:
70 |
0 |
2 |
0,5 |
1 |
0 |
0 |
0 |
0 |
140 |
1 |
|||||
22 |
0 |
0,2 |
0,15 |
0 |
1 |
0 |
0 |
0 |
146.66 |
1 |
|||||
10 |
1 |
0 |
0 |
0 |
0 |
1 |
0 |
0 |
--- |
||||||
15 |
0 |
1 |
0 |
0 |
0 |
0 |
1 |
0 |
--- |
||||||
100 |
0 |
0 |
1 |
0 |
0 |
0 |
0 |
1 |
100 |
-0.5 |
-0.15 |
1 |
-50 |
||
-1000 |
0 |
200 |
50 |
0 |
0 |
0 |
0 |
0 |
1 |
В ней разрешающим столбцом берем , вычисляем значения , заносим их в таблицу. По минимальному получаем разрешающую строку. Разрешающим элементом будет 1. Находим дополнительные множители , заполняем столбцы .
Составляем следующую симплекс-таблицу:
20 |
0 |
2 |
0 |
1 |
0 |
0 |
0 |
-0.5 |
10 |
0.5 |
-0.1 |
-0.5 |
-100 |
||
7 |
0 |
0,2 |
0 |
0 |
0 |
0 |
0 |
-0.15 |
35 |
1 |
|||||
10 |
1 |
0 |
0 |
0 |
0 |
1 |
0 |
0 |
--- |
||||||
15 |
0 |
1 |
0 |
0 |
0 |
0 |
1 |
0 |
15 |
1 |
|||||
100 |
0 |
0 |
1 |
0 |
0 |
0 |
0 |
1 |
--- |
||||||
-6000 |
0 |
200 |
0 |
0 |
0 |
0 |
0 |
-50 |
1 |
Аналогичным образом, находим разрешающий столбец , разрешающую строку и разрешающий элемент = 2. Строим следующую симплекс-таблицу:
10 |
0 |
1 |
0 |
0.5 |
0 |
0 |
0 |
-0.25 |
|||||||
5 |
0 |
0 |
0 |
-0.1 |
0 |
0 |
0 |
-0.1 |
|||||||
10 |
1 |
0 |
0 |
0 |
0 |
1 |
0 |
0 |
|||||||
5 |
0 |
0 |
0 |
-0.5 |
0 |
0 |
1 |
0.25 |
|||||||
100 |
0 |
0 |
1 |
0 |
0 |
0 |
0 |
1 |
|||||||
-8000 |
0 |
0 |
0 |
-100 |
0 |
0 |
0 |
0 |
Поскольку в строке -Z нет положительных значений, эта таблица является конечной. Первый столбец дает искомые значения неизвестных, т.е. оптимальное базисное решение:
, при этом значение целевой функции -Z = -8000, что эквивалентно Zmax = 8000. Задача решена.
Задача 3. Кластерный анализ
Постановка задачи:
Провести разбиение объектов на основании данных, приведенных в таблице. Выбор метода решения провести самостоятельно, построить график зависимости данных.
Вариант 1.
Исходные данные
№ п/п |
1 |
2 |
3 |
4 |
5 |
6 |
|
х1 |
2 |
4 |
15 |
12 |
14 |
15 |
|
х2 |
8 |
8 |
5 |
6 |
6 |
4 |
где х1 - объем выпускаемой продукции;
х2 - среднегодовая стоимость основных промышленно-производственных фондов.
Обзор методов решения указанного типа задач. Обоснование метода решения.
Задачи кластерного анализа решаются с помощью следующих методов:
Объединение или метод древовидной кластеризации используется при формировании кластеров «несходства» или «расстояния между объектами». Эти расстояния могут определяться в одномерном или многомерном пространстве.
Двувходовое объединение используется (относительно редко) в обстоятельствах, когда данные интерпретируются не в терминах «объектов» и «свойств объектов», а в терминах наблюдений и переменных. Ожидается, что и наблюдения и переменные одновременно вносят вклад в обнаружение осмысленных кластеров.
Метод К-средних. Используется, когда уже имеется гипотеза относительно числа кластеров. Можно указать системе образовать ровно, например, три кластера так, чтобы они были настолько различны, насколько это возможно. В общем случае метод K-средних строит ровно K различных кластеров, расположенных на возможно больших расстояниях друг от друга.
Существуют следующие способы измерения расстояний:
Евклидово расстояние. Это наиболее общий тип расстояния. Оно попросту является геометрическим расстоянием в многомерном пространстве и вычисляется следующим образом:
Заметим, что евклидово расстояние (и его квадрат) вычисляется по исходным, а не по стандартизованным данным.
Расстояние городских кварталов (манхэттенское расстояние). Это расстояние является просто средним разностей по координатам. В большинстве случаев эта мера расстояния приводит к таким же результатам, как и для обычного расстояния Евклида. Однако отметим, что для этой меры влияние отдельных больших разностей (выбросов) уменьшается (так как они не возводятся в квадрат). Манхэттенское расстояние вычисляется по формуле:
Расстояние Чебышева. Это расстояние может оказаться полезным, когда желают определить два объекта как "различные", если они различаются по какой-либо одной координате (каким-либо одним измерением). Расстояние Чебышева вычисляется по формуле:
Степенное расстояние. Иногда желают прогрессивно увеличить или уменьшить вес, относящийся к размерности, для которой соответствующие объекты сильно отличаются. Это может быть достигнуто с использованием степенного расстояния. Степенное расстояние вычисляется по формуле:
где r и p - параметры, определяемые пользователем. Несколько примеров вычислений могут показать, как "работает" эта мера. Параметр p ответственен за постепенное взвешивание разностей по отдельным координатам, параметр r ответственен за прогрессивное взвешивание больших расстояний между объектами. Если оба параметра - r и p, равны двум, то это расстояние совпадает с расстоянием Евклида.
Процент несогласия. Эта мера используется в тех случаях, когда данные являются категориальными. Это расстояние вычисляется по формуле:
Для решения поставленной задачи выберем метод объединения (древовидной кластеризации) как наиболее отвечающий условиям и постановке задачи (провести разбиение объектов). В свою очередь метод объединения может использовать несколько вариантов правил связи:
Одиночная связь (метод ближайшего соседа). В этом методе расстояние между двумя кластерами определяется расстоянием между двумя наиболее близкими объектами (ближайшими соседями) в различных кластерах. То есть любые два объекта в двух кластерах ближе друг к другу, чем соответствующее расстояние связи. Это правило должно, в известном смысле, нанизывать объекты вместе для формирования кластеров, и результирующие кластеры имеют тенденцию быть представленными длинными "цепочками".
Полная связь (метод наиболее удаленных соседей). В этом методе расстояния между кластерами определяются наибольшим расстоянием между любыми двумя объектами в различных кластерах (т.е. "наиболее удаленными соседями").
Существует также множество других методов объединения кластеров, подобных этим (например, невзвешенное попарное соединение, взвешенное попарное соединение и др.).
Технология метода решения. Расчет показателей.
На первом шаге, когда каждый объект представляет собой отдельный кластер, расстояния между этими объектами определяются выбранной мерой.
Так как в задаче не обуславливаются единицы измерения признаков, подразумевается, что они совпадают. Следовательно, нет необходимости в нормировании исходных данных, поэтому сразу переходим к расчету матрицы расстояний.
Решение задачи.
Построим по исходным данным график зависимости (рис 2)
Размещено на http://www.allbest.ru/
Размещено на http://www.allbest.ru/
В качестве расстояния между объектами примем обычное евклидовое расстояние. Тогда согласно формуле:
,
где l - признаки; k - количество признаков, расстояние между объектами 1 и 2 равно:
.
Продолжаем расчет остальных расстояний:
.
Из полученных значений построим таблицу:
1 |
2 |
3 |
4 |
5 |
6 |
||
1 |
0 |
2 |
13.34166 |
10.19804 |
12.16553 |
13.60147 |
|
2 |
0 |
11.40175 |
8.246211 |
10.19804 |
11.7047 |
||
3 |
0 |
3.162278 |
1.414214 |
1 |
|||
4 |
0 |
2 |
3.605551 |
||||
5 |
0 |
2.236068 |
|||||
6 |
0 |
Минимальное расстояние между элементами 3 и 6 равно . Значит, элементы 3 и 6 объединяются в один кластер. Используя метод «ближайшего соседа» получаем следующую таблицу:
1 |
2 |
3,6 |
4 |
5 |
||
1 |
0 |
2 |
13.34166 |
10.19804 |
12.16553 |
|
2 |
0 |
11.40175 |
8.246211 |
10.19804 |
||
3,6 |
0 |
3.162278 |
1.414214 |
|||
4 |
0 |
2 |
||||
5 |
0 |
Наименьшее расстояние . Значит, элементы 3,6 и 5 объединяем в один кластер. Получим следующую таблицу:
1 |
2 |
3,6,5 |
4 |
||
1 |
0 |
2 |
12.16553 |
10.19804 |
|
2 |
0 |
10.19804 |
8.246211 |
||
3,6,5 |
0 |
2 |
|||
4 |
0 |
Здесь наименьшее расстояние . Элементы 1 и 2 объединяем в один кластер. Получим следующую таблицу:
1,2 |
3,6,5 |
4 |
||
1,2 |
0 |
10.19804 |
8.246211 |
|
3,6,5 |
0 |
2 |
||
4 |
0 |
Наименьшее расстояние . В один кластер объединяются элементы 3,6,5 и 4. Получаем таблицу из двух кластеров:
1,2 |
3,6,5,4 |
||
1,2 |
0 |
8.246211 |
|
3,6,5,4 |
0 |
Таким образом, методом «ближайшего соседа» получили два кластера: 1,2 и 3,4,5,6 , расстояние между которыми равно 8,246211.
Решим эту же задачу методом «дальнего соседа». Расчет расстояний даст те же результаты, что и при методе «ближайшего соседа.». Исходная таблица расстояний примет вид:
Подобные документы
Построение экономико-математической модели задачи, комментарии к ней и получение решения графическим методом. Использование аппарата теории двойственности для экономико-математического анализа оптимального плана задачи линейного программирования.
контрольная работа [2,2 M], добавлен 27.03.2008Построение сетевого графика выполнения работ по реконструкции цеха, определение его параметров. Корреляционно-регрессионный анализ; расчет коэффициента корреляции между производительностью труда и рентабельностью предприятия; оптимизация ассортимента.
контрольная работа [803,4 K], добавлен 16.09.2011Методы и модели анализа динамики экономических процессов. Эластичность в экономическом анализе. Коэффициент корреляции, его свойства. Динамические ряды и временные ряды, тренд, их компоненты. Решение задачи потребительского выбора и его свойства.
курс лекций [399,8 K], добавлен 15.06.2015Моделирование экономических систем: основные понятия и определения. Математические модели и методы их расчета. Некоторые сведения из математики. Примеры задач линейного программирования. Методы решения задач линейного программирования.
лекция [124,5 K], добавлен 15.06.2004Решение задач линейного программирования с применением алгоритма графического определения показателей и значений, с использованием симплекс-метода. Использование аппарата теории двойственности для экономико-математического анализа оптимального плана ЗЛП.
контрольная работа [94,6 K], добавлен 23.04.2013Основные понятия моделирования. Общие понятия и определение модели. Постановка задач оптимизации. Методы линейного программирования. Общая и типовая задача в линейном программировании. Симплекс-метод решения задач линейного программирования.
курсовая работа [30,5 K], добавлен 14.04.2004Составление экономико-математической модели плана производства продукции. Теория массового обслуживания. Модели управления запасами. Бездефицитная простейшая модель. Статические детерминированные модели с дефицитом. Корреляционно-регрессионный анализ.
контрольная работа [185,7 K], добавлен 07.02.2013Сущность корреляционно-регрессионного анализа и экономико-математической модели. Обеспечение объема и случайного состава выборки. Измерение степени тесноты связи между переменными. Составление уравнений регрессии, их экономико-статистический анализ.
курсовая работа [440,3 K], добавлен 27.07.2015Сущность корреляционно-регрессионного анализа и его использование в сельскохозяйственном производстве. Этапы проведения корреляционно-регрессионного анализа. Области его применения. Анализ объекта и разработка числовой экономико-математической модели.
курсовая работа [151,0 K], добавлен 27.03.2009Модель планирования экономического размера партии. Построение модели Вальраса. Определение равновесной цены и количества сделок, при которых торговые операции становятся убыточными. Информационная технология поиска решений. Коэффициенты прямых затрат.
контрольная работа [224,3 K], добавлен 11.01.2015