Построение синтезирующей оптимальной стратегии управления

Решение задачи построения синтезирующей оптимальной стратегии управления для динамической производственно-финансовой модели, использующей один технологический процесс. Применение принципа максимума Понтрягина на примере задачи оптимального потребления.

Рубрика Экономико-математическое моделирование
Вид дипломная работа
Язык русский
Дата добавления 21.03.2011
Размер файла 743,9 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

1

Размещено на http://www.allbest.ru/

СОДЕРЖАНИЕ

  • Введение 7
  • 1 Цель работы 8
  • 2 Системный анализ предметной области и содержательная постановка задачи исследования 9
    • 2.1 Содержательная постановка задачи 9
    • 2.2 Системный анализ математической модели 13
      • 2.2.1 Вербальное описание системы 13
      • 2.2.2 Функциональная модель 15
      • 2.2.3 Формализованная модель 18
  • 3 Выбор и обоснование метода решения 28
    • 3.1 Теория фирмы……………………………………………………………28
    • 3.2 Принцип максимума Понтрягина 30
    • 3.3 Метод динамического программирования...……………………….….33
    • 4 Формальная постановка задачи 36
  • 5 Особенности программной реализации задачи 47
    • 5.1 Алгоритм решения………………………………………………………47
    • 5.2 Mathematica 4 как система символьной математики 48
    • 5.3 Описание программы 49
  • 6 Результаты вычислительного эксперимента 49
  • 7 Анализ возможных приложений 51
  • Заключение 52
  • Перечень ссылок 53
  • Приложение А………………………………………………………………………55

Введение

По своей природе экономика -- самая близкая к математике социальная наука. Центральные проблемы экономической науки -- рациональное ведение хозяйства, оптимальное распределение ограниченных ресурсов, изучение экономических механизмов управления, разработка методов экономических расчетов -- по существу являются задачами, решаемыми в рамках математических наук. Количественные и качественные методы математики являются наилучшим вспомогательным аппаратом для получения ответов на основные вопросы экономики. Не будет преувеличением сказать, что многие из математических теорий возникли благодаря и для решения экономических задач.

Математические методы в экономике играют возрастающую с каждым десятилетием роль, а реализация возникающих при этом математических моделей и получение практически важных результатов невозможны без ЭВМ. Математический аппарат, разработанный применительно к проблемам микроэкономики, получил в настоящее время всеобщее признание. Без таких концепций математической экономики, как производственные функции, предельные значения, экстремумы - максимальные и минимальные значения - и другое, невозможно успешно построить экономико-математические модели, имеющие своим назначением служить вспомогательным орудием народнохозяйственного планирования[3].

Управляемые объекты прочно вошли в нашу повседневную жизнь и стали обиходными, обыденными явлениями. Общим во всех явлениях является то, что мы можем «управлять» объектом, можем в той или иной степени влиять на его поведение. Поэтому необходимо выбрать такой путь, который с определённой точки зрения окажется наиболее выгодным. Это и есть задача об оптимальном управлении, которой и посвящена данная работа.

1 Цель работы

Исследовать задачу построения синтезирующей оптимальной стратегии управления для динамической производственно-финансовой модели фирмы, использующей один технологический процесс.

Выполнить первый этап формирования оптимальной политики - построение вспомогательной задачи оптимального управления и применение принципа максимума Понтрягина для ее решения на примере задачи оптимального потребления в однопродуктовой экономической модели.

2 Системный анализ предметной области и содержательная постановка задачи исследования

2.1 Содержательная постановка задачи

Сформулируем задачу исследования в математических терминах. Задано некоторое множество функций времени, называемое множеством управления. Задача состоит в выборе управляющих параметров как функций времени, принадлежащих множеству управлений. Выбранные функции в свою очередь определяют, какой вид имеют функции времени некоторых других переменных, с помощью которых описывается поведение системы. Эти переменные называются фазовыми координатами. Значение фазовых координат в каждый момент времени выбирается таким образом, чтобы максимизировать заданный целевой функционал, зависящий от фазовых координат и управляющих параметров.

При строгой формулировке задачи управления используются следующие понятия: время (момент времени), фазовые координаты, управляющие параметры, уравнения движения, определение конечного момента, целевой функционал.

Время t измеряется как непрерывная величина. Предполагается, что t изменяется в некотором фиксированном промежутке: от начального момента t0, который обычно известен, до конечного момента t1, который часто требуется определить. Следовательно, время задано на промежутке

t0 ? t ? t1. (2.1)

оптимальная стратегия управление модель

Состояние системы в любой момент времени t из указанного промежутка характеризуется с помощью n вещественных чисел x1(t), х2(t), . . ., хn(t), называемых фазовыми координатами.

Составленный из фазовых координат n-мерный вектор-столбец

х(t) = (x1(t), х2(t), ...,xn(t))', (2.2)

называется фазовым вектором (фазовой точкой), который можно геометрически интерпретировать как точку в n-мерном евклидовом пространстве Еn.

Выборы (решения), которые нужно осуществлять в каждый данный момент времени t из указанного интервала, характеризуются с помощью r вещественных чисел u1(t), u2(t), . . . , ur(t), называемых управляющими параметрами. Составленный из управляющих параметров r-мерный вектор-столбец

u(t) = (u1(t), u2(t), . . ., ur(t))', (2.3)

называется управляющим вектором. Требуется, чтобы каждый управляющий параметр являлся кусочно-непрерывной функцией времени. Поэтому управление представляет собой кусочно-непрерывную функцию времени.

Предполагается, что возможные значения управляющих параметров удовлетворяют некоторым ограничениям. Эти ограничения в общей форме состоят в том, что управляющий вектор в каждый момент времени из интервала t0?t?t1 должен принадлежать некоторому фиксированному непустому подмножеству U(t) r-мерного евклидова пространства

u (t) є U(t). (2.4)

Обычно предполагается, что множество U(t) является замкнутым и ограниченным и что оно инвариантно относительно времени. Управление (1.3) называется допустимым, если оно представляет собой кусочно-непрерывную вектор-функцию времени, значения которой в любой момент времени из указанного интервала (1.1) принадлежат U(t) [2]. Кусочно-непрерывные управления это такие управления u=u(t), каждое из которых непрерывно для всех рассматриваемых t, за исключением лишь конечного числа моментов времени, где функция u(t) может терпеть разрывы первого рода. Управление u(t), дающее решение поставленной задачи, называется оптимальным управлением.

Фазовая траектория х(t) определяется из уравнений движения, т. е. из системы дифференциальных уравнений, в которых скорость изменения каждой фазовой координаты представлена в виде функции фазовых координат, управляющих параметров и времени

. (2.5)

Предполагается, что каждая из заданных n функций f1, f2,…,fn является непрерывно дифференцируемой. Если эти дифференциальные уравнения не зависят явно от времени, то уравнения движения называются автономными. Фазовая траектория, найденная в результате решения уравнений движения при начальном состоянии х(t0)=x0 с использованием допустимого управления, называется допустимой, а любая фазовая точка на фазовой траектории, которую можно достичь за конечное время, называется достижимой.

Конечный момент времени t1 определяется условием (х(t), t) є T при t = t1, где Т -- заданное подмножество в Еn, называемое конечной поверхностью. Важными частными случаями задачи управления являются задача с фиксированным временем, когда конечный момент времени t1 задан в явной форме как параметр задачи, и задача с фиксированным конечным моментом времени, когда х(t1) задан в явной форме как вектор параметров задачи.

Целевой функционал, максимум которого требуется найти, представляет собой отображение управлений (функций времени) на точки вещественной прямой. Этот функционал будет рассматриваться, как правило, в следующей форме:

. (2.6)

Подынтегральная функция I показывает, что функционал зависит от фазовых координат, управляющих параметров, являющихся функциями времени, и от времени, т. е.

I(х, u, t) = I (x1(t), x2(t), . . ., хn(t); u1(t), u2(t), . . .,ur(t); t), (2.7)

где t задано на промежутке t0?t?t1.

Второе слагаемое F в выражении для функционала, которое называется функцией конечных параметров, показывает, что функционал зависит от конечного состояния и от конечного момента времени:

F(х1,t1) = F(x1(t1), х2(t1), . . ., хn(t1); t1). (2.8)

Предполагается, что как I, так и F являются фиксированными непрерывно дифференцируемыми функциями.

Задачу с целевым функционалом такого вида, как в (2.6), обычно называют задачей Болъца. Если функция конечных параметров тождественно равна нулю, так что

, (2.9)

то такую задачу называют задачей Лагранжа. Задачу, в которой подынтегральная функция тождественно равна нулю, так что

J = F (x1, t1), (2.10)

называют обычно задачей Майера. Все эти три задачи эквивалентны, что можно доказать с помощью соответствующих преобразований переменных.

Итак, общая задача управления состоит в следующем: требуется найти

, (2.11)

при условии, что , t0 и х (t0) = х0 фиксированы, (x(t),t) є T при t=t1, u(t) є U. [2]

2.2 Системный анализ математической модели

2.2.1 Вербальное описание системы

Объект - «производственно-финансовая модель фирмы: предприятие по производству сотовых телефонов».

Системная модель объекта создается с целью изучения этапов построения глобальной математической модели финансирования предприятия и нахождение его наиболее оптимальной политики. Рассматриваемая система разбита на управляющую систему (директор, замдиректора, главный конструктор, инженер-разработчик) и управляемую (производственный отдел, отдел разработки, отдел продаж, отдел контроля качества, обеспечивающий отдел).

На отдельные части системы, такие как построение математической и расчетной модели, в данной работе обращено особенное внимание.

Назначением исследуемой модели является предоставление глобальной математической модели для дальнейшего ее использования при изучении деятельности фирмы на конечном промежутке времени. Для реализации цели системы используются различные ресурсы. К таким ресурсам относятся: информационные, технологические, энергетические.

Главный выход системы - телефоны высокого качества. На входы системы подаются материалы, необходимые для производства мобильных телефонов, денежные средства в виде кредита и капитала акционеров.

Данное предприятие предназначено для выполнения следующих задач:

- разрабатывать новые технологии производства и новые виды продукции, усовершенствовать ранее разработанные;

- Внедрять разработки в производство;

- Производить высококачественную продукцию;

- Руководить финансовыми оборотами предприятия;

- Продвигать произведенную продукцию на несовершенный рынок.

Для того чтобы система выполняла свои функции и задачи, необходимо чтобы каждый отдел системы выполнял свои функции.

Обеспечивающий отдел предназначен обеспечивать управление системой, кроме этого осуществляет финансовые операции, обеспечивает систему необходимыми материалами.

Производственный отдел предназначен для производства приборов, выполнение заказов, выполнять техническое обеспечение научно-исследовательского отдела.

Научно-исследовательский отдел осуществляет разработки, необходимые для усовершенствования продукции, технологий, прогнозирование дальнейшего состояния системы.

1

Размещено на http://www.allbest.ru/

Рисунок 2.1

Морфологическая модель

Рисунок 2.2

Информационная модель

2.2.2 Функциональная модель

В рамках методологии IDEF0 процесс представляется в виде набора элементов-работ, которые взаимодействуют между собой, а также показываются ресурсы, потребляемые каждой работой.

Рисунок 2.3

Контекстная диаграмма системы

Для новых систем применение IDEF0 имеет своей целью определение требований и указание функций для последующей разработки системы, отвечающей поставленным требованиям и реализующей выделенные функции. Применительно к уже существующим системам IDEF0 может быть использована для анализа функций, выполняемых системой и отображения механизмов, посредством которых эти функции выполняются. Первая диаграмма в иерархии диаграмм IDEF0 всегда изображает функционирование системы в целом. Такие диаграммы называются контекстными. После того как контекст описан, проводится построение следующих диаграмм в иерархии. Каждая последующая диаграмма является более подробным описанием (декомпозицией) одной из работ на вышестоящей диаграмме. Результат декомпозиции контекстной диаграммы системы приведен на рисунке 2.4.

Рисунок 2.4

Диаграмма декомпозиции. Уровень А0

Рисунок 2.5

Диаграмма декомпозиции. Уровень А1

Рисунок 2.6

Диаграмма декомпозиции. Уровень А2

2.2.3 Формализованная модель

Рассмотрим применение метода анализа иерархий для анализа и решения проблемы продуктивной работы предприятия по производству мобильных телефонов.

Рыночные отношения на сегодняшний день требуют от производителей повышения качества изготовляемых товаров, а для достижения данных требований, необходимо, внедрение новых технологий, оптимальная политика управления фирмой или предприятием.

В качестве объекта, на основе которого будет строиться проблемосодержащая система (ПС-система), выбрана фирма по производству сотовых телефонов. Рассмотрим объекты, которые каким-либо образом влияют на состояние проблемосодержащей системы:

1) Социальный уровень граждан;

2) Государственная налоговая политика;

3) Состояние экономики и финансов;

4) Аналогичные предприятия.

Сформулируем три группы неудовлетворенностей, порожденных проблемной ситуацией:

нежелательные свойства (НС) системы и среды:

- недостаток рекламы;

- ограниченность материалов;

- конкуренция аналогичных фирм;

- загрязнение окружающей среды;

критические свойства (КС):

- неквалифицированность кадров;

- нехватка современного технического оборудования;

- длительный цикл производства;

- недостаток финансирования;

- минимизация затрат на производство;

желательные свойства (ЖС):

- высокий товарооборот;

- увеличение объемов сбыта;

- внедрение новых технологий;

- низкая трудоемкость.

Методом парных сравнений оценим «весовые» коэффициенты, характеризующие степень влияния групп неудовлетворенностей и их элементов на напряженность проблемы.

Рисунок 2.7

Иерархическая модель анализа проблемы

Представим несколько матриц парных сравнений на рисунках 2.8 - 2.10

Рисунок 2.8

Матрица парных сравнений для НС

Рисунок 2.9

Матрица парных сравнений для КС

Рисунок 2.10

Матрица парных сравнений для ЖС

Рисунок 2.11

Результаты расчетов векторов глобальных приоритетов

Получили вектор глобальных приоритетов (0.0084; 0.0389; 0.0203; 0.0057; 0.0266; 0.0427; 0.0199; 0.1107; 0.2510; 0.1329; 0.0704; 0.1656; 0.1067), отранжируем его и, применяя принцип Парето, оставим самые значимые неудовлетворенности для дальнейшего рассмотрения:

- неквалифицированность кадров (0.2510);

- загрязнение ОС (0.1656);

- длительный цикл производства (0.1329);

- недостаток рекламы (0.1107);

- недостаток технического обеспечения (0.1067).

-

Рисунок 2.12

График глобальных приоритетов

Сформулируем несколько возможных логических исходов и представим калибровочную таблицу (см. таблицу 2.1), в которой по психометрической шкале Т.Саати для каждого сценария оптимальной политики экспертным путем определены приращения рассматриваемых показателей.

Учитывая рассмотренные показатели, можно сформулировать несколько вероятных исходов (контрастных сценариев) состояния ПС-системы под воздействием вышеописанных объектов.

СЦ «Статус-кво». Существующие проблемоориентированные факторы в течении рассматриваемого времени не изменяются. Будет продолжаться снижение объемов производства хоть и с меньшей интенсивностью. В условиях снижения внутренних и внешних инвестиций будет падать рост производства с большей степенью.

СЦ «Улучшение политики управления». Изменение политики управления предприятием со стороны управляющей системы и принятием мер по улучшению деятельности фирмы приведут к отбору и улучшению квалифицированности кадров, а следовательно и ускорению цикла производства. Это в свою очередь приведет к увеличению прибыли предприятия. В результате имеющихся финансовых ресурсов можно будет устранить недостаток в техническом обеспечении, увеличить рекламу. В связи с новыми технологиями, используемыми в техническом обеспечении уменьшиться загрязнение ОС. Т.о. при благоприятствующей ситуации внешних и внутренних факторов в пользу данного предприятия появиться возможность расширить структуру фирмы с дальнейшей возможностью перейти в разряд монополистов в области производства сотовых телефонов.

СЦ «Новые технологии». Увеличить финансирование закупки технического оборудования, а следовательно и новых технологий, что приведет к ускорению цикла производства, уменьшению загрязняния ОС. Однако это не решит проблему неквалифицированности кадров и имеющийся недостаток рекламы.

Таблица 2.1

Показатели состояния

системы

СЦ «Статус-кво»

СЦ «Улучшение политики управления»

СЦ

«Новые технологии»

1

неквалифицированность кадров

-3

+5

-1

2

загрязнение ОС

-3

+2

+1

3

длительный цикл производства

-4

+5

+2

4

недостаток рекламы

-3

+5

-5

5

недостаток технического обеспечения

-1

+1

+5

Разработав модель контрастных сценариев, агрегируем иерархическую модель прямого процесса анализа проблемы (см. рисунок 2.12).

В этой модели рассматриваются следующие элементы по уровням:

0-й уровень (фокус модели) - улучшение деятельности фирмы по производству сотовых телефонов, благодаря оптимальной политики;

1-й уровень (факторы): экономические, социальные, технологические;

2-й уровень (акторы): руководство предприятия, рабочие предприятия, потребители товаров производства;

3-й уровень (цели акторов): руководство предприятия - повышение эффективности производства, конкурентоспособность, экономическая стабильность, увеличение качества производства, финансирование, улучшение работы персонала; рабочие предприятия - улучшение качества продукции, улучшение работы персонала, внедрение новых технологий; потребители товаров производства - финансирование, улучшение качества продукции;

4-й уровень (контрастные сценарии): «Статус-кво», «Улучшение политики управления», «Новые технологии»;

5-й уровень - обобщенный сценарий.

Рисунок 2.13

Иерархическая модель прямого процесса анализа процесса.

Далее рассчитываем локальные приоритеты элементов каждого уровня модели по отношению к каждому связанному элементу верхнего уровня, а затем оцениваем вектор глобальных приоритетов элементов 4-го уровня. Вектор глобальных приоритетов (0.1398; 0.5761; 0.2841)

Дополняем калибровочную таблицу значениями оценок обобщенного сценария и значениями вектора глобальных приоритетов. Обобщенный сценарий характеризует коэффициенты значимости соответствующих свойств (для определения данных приоритетов нормируем значения средневзвешенных показателей свойств). Занесем результаты в калибровочную таблицу.

Таблица 2.2 - Дополненная калибровочная таблица.

Показатели состояния системы

СЦ «Статус-кво» 0.1398

СЦ «Улучшение политики управления»

0.5761

СЦ «Новые технологии»

0.2841

Обобщенный сценарий

1

2

3

4

5

6

1

неквалифицированность кадров

-3

+5

-1

-3,5840

2

загрязнение ОС

-3

+2

+1

0,4487

3

длительный цикл производства

-4

+5

+2

4,0079

4

недостаток рекламы

-3

+5

-5

-4,7204

5

недостаток технического обеспечения

-1

+1

+5

-2,1364

Где «обощенный сценарий» был получен по формуле:

sj - коэффициент значимости j-го сценария (f);

gij - мера степени изменения i-го св-ва по j-му сценарию.

После оценки вероятных логических сценариев состояния ПС-системы разработаем модели желаемых сценариев.

Для выбора одного из рассматриваемых желаемых сценариев необходимо построить две иерархические модели по критериям «выгода» и «ущерб».

Рисунок 2.14 - Анализ сценариев по критерию «выгода»

Рассчитываем вектора локальных приоритетов элементов каждого уровня и рассчитываем вектор глобальных приоритетов, он равен (0.1916; 0.5403; 0.2681).

Проанализировав, можем сказать, что по критерию «выгода» более приоритетным является сценарий «Улучшение политики управления».

Рисунок 2.15

Анализ желаемых сценариев по критерию «ущерб»

Рассчитываем вектора локальных приоритетов элементов каждого уровня и рассчитываем вектор глобальных приоритетов, он равен (0.4113; 0.9839; 0.2046).

По данным результатам ущербным является сценарий «Статус-кво».

Полученные результаты занесем в таблицу 2.3:

Таблица 2.3

Сценарии

«Статус-кво»

«Улучшение политики управления»

«Новые технологии»

Критерии

Критерий «выгода» V

0.1916

0.5403

0.2681

Критерий «ущерб» U

0.4113

0.3839

0.2046

Отношение «выгода/ущерб» V/U

0.4658

1.4074

1.3104

Выбираем сценарий с максимальным значением величины V/U, в нашей задаче это «Улучшение политики управления», который может использоваться для прогнозирования потенциальной прибыльности отрасли.

Цель нашего долгосрочного планирования -- выбрать изначально такой сценарий управления предприятием, который отвечал бы оптимальной политики фирмы, оценить значимость ее основных факторов и представить полную картину потенциала прибыли предприятия.

Надо учитывать и тот факт, что результаты таких исследований могут значительно различаться в зависимости от существующей структуры предприятия, фирмы и отрасли.

Рассмотрение общей схемы для анализа улучшения деятельности фирмы обеспечивает благоприятную почву для разработки стратегии. Этим можно оценить потенциал данного бизнеса.

Применяя вышеописанный метод к конкретным целям, компания сможет занять положение в отрасли с хорошим будущим еще до того, как возрастет конкурентоспособность других компаний.

3 Выбор и обоснование метода решения

3.1 Теория фирмы

Одним из основных понятий микроэкономической теории является фирма, определяемая как некоторая организация, производящая затраты экономических факторов, таких как земля, труд, капитал, для изготовления продукции и услуг, которые она продает потребителям или другим фирмам [3].

Макроэкономическая модель -- экономико-математическая модель, описывающая в математической форме развитие экономики в целом и ее наиболее важных отраслей.

Под продукцией или услугой мы будем понимать некоторое благо, которое поступило в продажу в некоторое время в заданном месте. Пусть, существует конечное число имеющихся товаров n, количество каждого из них, характеризуется набором товаров , где - количество -го товара (), купленного покупателем.

Задача рационального ведения хозяйства для фирмы состоит в определении количества продукции и в расчете необходимых для ее выпуска затрат с расчетом технологической связи между ними и заданными ценами на затраты и на продукцию. Неоклассическая теория фирмы построена на предположении, что цель фирмы заключается в максимизации прибыли путем выбора видов затрат, при заданной производственной функции и заданных ценах выпуска р и ценах затрат (оплатах факторов производства) w = (w1, w2, . . ., wn).

Допустим, что фирма производит только один вид продукции, используя несколько видов затрат. В этом случае фирма должна выбрать точку в пространстве затрат, которое состоит из всех возможных комбинаций затрат.

Обозначим через количество -го вида затрат , которые использует фирма, тогда вектор затрат имеет вид . Пусть - пространство затрат, что состоит из всех возможных затрат .

Каждой точке пространства затрат соответствует единственный максимальный выпуск продукции, произведенный при использовании этих затрат. Производственной функцией называется функция, которая выражает количественную взаимосвязь производственных затрат и выпуска продукции.

Обозначив через размеры выпуска продукции, производственную функцию можно записать в виде . Данная функция есть отображение любого вектора затрат (точки из ) в неотрицательное действительное число, а именно максимальный выпуск продукции, который может быть получен при использовании этого вектора затрат.

Математические модели поведения фирмы строятся на основе следующих предположений:

1) производственная функция отображает чисто технологические условия производства;

2) никаких внешних ограничений на объем производства и реализации продукции не существует, это же относится и затрат, которые закупают (факторов производства);

3) имеет место так называемая совершенная конкуренция, при которой удельный вес той или другой фирмы невелика, через что эта фирма не может влиять не на уровень цен продукции, что реализуется, не на уровень цен закупок ею товаров; возможен свободный выход фирмы на рынок и выход из ринка.

В теории фирмы существует большое количество определений, я приведу некоторые, используемые в моем дипломном проекте.

Фондовооруженность труда - стоимость основных производственных фондов, приходящихся на одного работающего предприятия

Основные производственные фонды -- совокупность средств труда, функционирующих в сфере материального производства в неизменной натуральной форме в течение длительного времени и переносящих свою стоимость на вновь созданный продукт по частям, по мере снашивания за ряд кругооборотов.

Коэффициент выбытия основных фондов - показатель, характеризующий воспроизводство основных фондов. Определяется как отношение выбывших за год основным фондов к их наличию на начало года и рассчитывается по видам, группам и всем основным фондам по предприятиям, отраслям, регионам, по стране. Чем больше коэффициент выбытия основных фондов, тем меньше сроки службы элементов основных фондов и наоборот.

В связи с переходом к рыночной экономике, неотъемлемой от процессов планирования, регулирования, управления и прогнозирования производственных и технологических процессов, становятся все более актуальными разработка и применение экономико-математических методов для решения производственно-хозяйственных задач, определения и выбора экономического развития на перспективу. Определение оптимального варианта текущего и перспективного развития, как правило, связано с решением применением теории оптимального управления (в частности с применением принципа Понтрягина).

3.2 Принцип максимума Понтрягина

Известно, что принцип максимума сводит задачу оптимального управления к решению краевой задачи для системы дифференциальных уравнений. Характерным для задачи оптимального управления является то, что аналитическое решение задачи удается получить лишь в редких случаях. В связи с этим большую роль играют численные методы построения оптимального управления. Однако, решение сложной задачи оптимизации не всегда удается получить с помощью одного численного метода. В случае прекращения сходимости итерационного процесса необходимо подбирать другой метод и, если выбор окажется неудачным, то осуществляется переход к следующему методу. Недостатком такой технологии является необходимость "ручного" выбора наиболее соответствующего для данной стадии решения задачи метода оптимизации. Эффективным средством исследования задач оптимального управления является принцип максимума Понтрягина, представляющий собой необходимое условие оптимальности в таких задачах.

Рассмотрим задачу оптимального управления, являющуюся частным случаем задачи, сформулированной выше

, (3.1)

, (3.2)

где ,

При этом предполагается, что моменты t0, t1 фиксированы, т. е. рассматривается задача с закрепленным временем; множество U не зависит от времени, фазовые ограничения отсутствуют. Положим

,

где ш0 - константа. Функция Н называется функцией Гамильтона. Система линейных дифференциальных уравнений ш' = - Hx относительно переменных ш = (ц1(t),…,цn(t)) называется сопряженной системой, соответствующей управлению u и траектории х. Здесь

.

В более подробной покоординатной записи сопряженная система принимает вид

. (3.3)

Система (3.3) имеет при любых начальных условиях единственное решение ш, определенное и непрерывное на всем отрезке [t0,t1].

Следующая теорема выражает необходимые условия оптимальности в задаче (3.1).

Теорема (принцип максимума Понтрягина).

Пусть функции f0,f1,…,fn и, g1, ..., gm имеют частные производные по переменным х1, ..., xn и непрерывны вместе с этими производными по совокупности аргументов , . Предположим, что (u, х) - решение задачи (3.1). Тогда существует решение ш сопряженной системы (3.3), соответствующей управлению u и траектории х, и константа ш 0 ? 0 такие, что при t [t0, t1], и выполняются следующие условия:

а) (условие максимума) при каждом t [t0, t1] функция Гамильтона достигает максимума по v U при v = u (t), т. е.

; (3.4)

б) (условие трансверсальности на левом конце траектории) существуют числа л1,…,лm0, такие, что ;

в) (условие трансверсальности на правом конце траектории) существуют числа лm0+1,…,лm такие, что

. (3.5)

Центральным в теореме является условие максимума - (3.4).

Если отказаться от предположения о том, что конечный момент времени t1 фиксирован, то теорема останется справедливой за исключением условия трансверсальности на правом конце траектории.

Вышеизложенная теорема позволяет из всех траекторий, начинающихся в точке х0 и кончающихся в некоторой точке прямой П, и соответствующих им управлений выделить лишь отдельные, изолированные траектории и управления, удовлетворяющие всем сформулированным условиям.

Сформулируем условия трансверсальности. Пусть - некоторые точки, а T0, T1- касательные плоскости многообразий S0, S1, проведенные в этих точках. Плоскости T0 и T1 в пространстве Х и имеют размерности соответственно r0, r1. Пусть, далее, u(t), x(t), t0?t?t1, - решение оптимальной задачи с закрепленными концами х0 и х1.

Вектор ш(t) удовлетворяет условию трансверсальности в правом конце траектории x(t) (т.е. точке x(t1)), если вектор ш1(t) = (ш1(t1), ш2(t1), … , шn(t1)) ортогонален плоскости T1. Иначе говоря, условие трансверсальности означает, что для любого вектора и = (и1? и2, … , иn), принадлежащего плоскости T1, выполнено соотношение (ш1(t1), и) = 0. Аналогичный смысл имеет условие трансверсальности в левом конце траектории x(t) (нужно лишь заменить t1 и T1 на t0 и T0 соответственно). Условие трансверсальности в правом конце траектории x(t) содержит r1 независимых соотношений, ибо в равенство (ш1(t1), и) = 0 достаточно подставить r1 линейно независимых векторов и1, и2, … , иr1, расположенных в плоскости T1. Условие трансверсальности в левом конце содержит r0 независимых соотношений.

3.3 Метод динамического программирования

Динамическое программирование - это метод оптимизации многошаговых или многоэтапных процессов, критерий эффективности которых обладает свойством аддитивности (т.е. общий доход процесса равен сумме локальных доходов на отдельных этапах). В задачах динамического программирования критерий эффективности называется доходом. Данные процессы управляемые, и от правильного выбора управления зависит величина дохода.

Показатель эффективности задачи в целом обозначим через W, а показатели эффективности на отдельных шагах - через цi, i=1,…,m. Если W обладает свойством аддитивности, т.е.

W=? цi , (3.1)

Переменная xi, от которой зависят выигрыши на i-м шаге и, следовательно, выигрыш в целом, называется шаговым управлением, i=1,...,m.

Управлением процесса в целом x называется последовательность шаговых управлений (вектор управлений) x=(x1, x2,…, xi,…, xm).

Оптимальное управление x --это значение управления x, при котором значение W(x*) является максимальным

(или минимальным, если требуется уменьшить проигрыш).

W*=W(x*)=max{W(x)}, x є X, (3.2)

где X--область допустимых управлений.

Оптимальное управление x* определяется последовательностью оптимальных шаговых управлений x*=(x1*, x2*,…, xi*,…, xm*).

В основе метода динамического программирования лежит принцип оптимальности Беллмана, формулирующийся следующим образом: управление на каждом шаге надо выбрать так, чтобы оптимальной была сумма выигрышей на всех оставшихся до конца процесса шагах, включая выигрыш на данном шаге. Объясняется это правило так: при решении задачи динамического программирования на каждом шаге выбирается управление, которое должно привести к оптимальному выигрышу. Если считать все шаги независимыми друг от друга, то оптимальным шаговым управлением будет то управление, которое приносит максимальный выигрыш именно на данном шаге. В многошаговых процессах все шаги зависят друг от друга, и, следовательно, управление на каждом конкретном шаге надо выбирать с учетом его будущих воздействий на этот процесс.

Другой момент, который следует учитывать при выборе управления на данном шаге, -- это возможные варианты окончания предыдущего шага. Эти варианты определяют состояние процесса. Например, при определении количества средств, вкладываемых в предприятие в i-м году, необходимо знать, какая прибыль получена в предыдущем (i-1)-м году. Таким образом, при выборе шагового управления необходимо учитывать:

1) возможные исходы предыдущего шага;

2) влияние управления на все оставшиеся до конца процесса шаги.

В задачах динамического программирования первый пункт учитывают, делая на каждом шаге условные предположения о возможных вариантах окончания предыдущего шага и приводя для каждого из вариантов условную оптимизацию. Выполнение второго пункта обеспечивается тем, что в задачах динамического программирования условная оптимизация проводится от конца процесса к началу. Сперва, оптимизируется последний m-й шаг, на котором не надо учитывать возможные воздействия выбранного управления xm на все последующие шаги, так как эти шаги просто отсутствуют. Делая предположения об условиях окончания (m-1)- го шага, делая предположения об исходах окончания (m-2)-го шага и определяя условное оптимальное управление на (m-1)-м шаге, приносящее оптимальный выигрыш на двух последних шагах--(m-1)-м и m-м. Так же действуют на всех остальных шагах до первого. На первом шаге, как правило, не надо делать условных предположений, так как состояние системы перед первым шагом обычно известно. Для этого состояния выбирают оптимальное шаговое управление, обеспечивающее оптимальный выигрыш на первом и всех последующих шагах. Это управление является безусловным оптимальным управлением на первом шаге и, зная его, определяются оптимальное значение выигрыша и безусловные оптимальные управления на всех шагах.

Понятия этапа (шага), состояния, управления, дохода(выигрыша) целиком зависит от предметной ориентации исследуемой системы. Для производственно-финансовой модели эти понятия имеют вид:

1) этап - некий календарный интервал (месяц, квартал, год и т.д.);

2) состояние - наличие финансовых/производственных средств, свободной продукции и т. п.;

3) управление - возможные варианты использования имеющихся средств;

4) локальный доход - прибыль (или затраты) получаемая на отдельном этапе;

5) суммарный доход - прибыль (или затраты) получаемая по окончании планового периода.

Дополнительно введем следующие условные обозначения:

s - состояние процесса;

Si - множество возможных состояний процесса перед i-м шагом;

Wi - выигрыш с i-го шага до конца процесса, i=1,...,m.

Можно определить следующие основные этапы составления математической модели задачи динамического программирования:

1) Разбиение задачи на шаги (этапы). Шаг не должен быть слишком мелким, чтобы не проводить лишних расчетов и не должен быть слишком большим, усложняющим процесс шаговой оптимизации;

2) Выбор переменных, характеризующих состояние s моделируемого процесса перед каждым шагом, и выявление налагаемых на них ограничений. В качестве таких переменных следует брать факторы, представляющие интерес для исследователя, например годовую прибыль при планировании деятельности предприятия;

3) Определение множества шаговых управлений xi, i=1,...,m и налагаемых на них ограничений, т.е. области допустимых управлений X;

4) Определение выигрыша ц(s, xi), который принесет на i-м шаге управление xi, если система перед этим находилась в состоянии s;

5) Определение состояния s', в которое переходит система из состояния s под влиянием управления xi : s'=fi(s, xi), где fi--функция перехода на i-м шаге из состояния s в состояние s';

6) Составление уравнения, определяющего условный оптимальный выигрыш на последнем шаге, для состояния s моделируемого процесса

Wm(S)=max{цm(s, xm)}; (3.3)

7) Составление основного функционального уравнения динамического программирования, определяющего условный оптимальный выигрыш для данного состояния s с i-го шага и до конца процесса через уже известный оптимальный выигрыш с (i+1)-го шага и до конца:

Wi(S)=max{цi(s, xi)+Wi+1(fi(s, xi))}. (3.4)

В уравнении (3.4) в уже известную функцию Wi+1(s), характеризующую условный оптимальный выигрыш с (i+1)-го шага до конца процесса, вместо состояния s подставлено новое состояние s'=fi(s, xi), в которое система переходит на i-м шаге под влиянием управления xi.

После того как выполнены пункты 1--7, и математическая модель составлена, приступают к ее расчету. Укажем основные этапы решения задачи динамического программирования:

1) Определение множества возможных состояний Sm для последнего шага;

2) Проведение условной оптимизации для каждого состояния s, принадлежащей Sm на последнем m-м шаге по формуле (3.3) и определение условного оптимального управления x(s), s є Sm;

3) Определение множества возможных состояний Si для i-го шага,

i=2, 3,…m-1;

4) Проведение условной оптимизации для i-го шага, i=2, 3,…m-1 для каждого состояния s, принадлежащей Si, по формуле (3.4) и определение условного оптимального управления xi(s), s є Si, i=2, 3,…m-1;

5) Определение начального состояния системы s1, оптимального выигрыша W1(S1) и оптимального управления x1(S1) по формуле (3.4) при i=1. Это есть оптимальный выигрыш для всей задачи W*=W1(x1*);

6) Проведение безусловной оптимизации управления. Для проведения безусловной оптимизации необходимо найденное на первом шаге оптимальное управление x1*=x1(s1) подставить в формулу (3.2) и определить следующее состояние системы s2=f2(s1, x1). Для измененного состояния найти оптимальное управление x2*=x2(s2), подставить в формулу (3.2) и т.д. Для i-го состояния si найти si+1=fi+1(si,xi*) и x*i+1(si+1) и т.д.

Применим этот метод к задаче оптимального управления.

Обозначим: W(x,t) - минимальное значение функционала качества J из (2.6) для оптимального процесса, начинающегося в момент t0 в точке x(0) = x0. Этот процесс можно представить состоящим из двух участков: первого шага, на котором выбирается управление u(t) = u, и остальной части (от момента t0 + 1 до конца процесса t1). Вклад в функционал качества первого участка процесса равен R(x, u), а вклад второго участка можно, согласно принципу оптимальности, выразить через введенную выше функцию W(x,t) в виде Wi+1(x(t0 + 1), t0+1). Учитывая, что управление на первом участке должно выбираться из условия минимизации критерия J при ограничении u(t) є U, получим основное соотношение метода динамического программирования

Wi(S)=min{Ri(x, t0)+Wi+1(x(t0 + 1), t0 + 1))}. (3.5)

Для оптимального процесса, начинающегося в момент t = N, критерий оптимальности (2.6) сводится к одному последнему слагаемому. Поэтому имеем

Wm(S)=min{Rm(x(N),N)}; (3.6)

Соотношение (3.5) и (3.6), играющее роль начального условия, дают возможность последовательно определить функции W при t = N - 1,…, 1, 0, а также рассчитать оптимальное управление и оптимальные траектории. Это достигается при последовательной реализации процедурой «от конца к началу» и прямой процедурой динамического программирования «от начала к концу».

Процедура «от конца к началу» состоит в построении функций W(x, t) и ut(x) для всех x и t = 0, 1,…, N. Это построение в отдельных случаях может быть выполнено аналитически, но, как правило, является трудоемкой вычислительный процедурой. Воспользуемся результатами процедуры «от конца к началу» для решения исходной задачи, то есть для построения оптимального управления и оптимальной траектории при заданном начальном условии. Для проведения безусловной оптимизации необходимо найденное на первом шаге оптимальное управление u1*=u1(x1) подставить в формулу (3.2) и определить следующее состояние системы x2=f2(x1, u1). Для измененного состояния найти оптимальное управление u2*=u2(x2), подставить в формулу (3.2) и т.д. Для i-го состояния si найти xi+1=fi+1(xi,ui*) и u*i+1(xi+1) и т.д. Что позволяют полностью рассчитать оптимальное управление и оптимальную траекторию. Минимальное значение критерия оптимальности, отвечающее этой траектории, J = W(x0, 0).

Метод динамического программирования содержит некоторую информацию об оптимальных процессах и потому может быть использован для их разыскания. Однако он имеет ряд неудобств. Во-первых, применение этого метода требует нахождения не только оптимальных управлений, но и функции цi(x) (Ri(x,t)). Во-вторых, уравнение Беллмана представляет собой уравнение в частных производных относительно функции ц, осложнённое к тому же знаком максимума. Указанные обстоятельства сильно затрудняют возможность пользования методом динамического программирования для отыскания оптимальных процессов в конкретных примерах. Но самым главным недостатком этого метода является о, что оптимальные управления и функция ц нам заранее не известны. Этот недостаток можно было бы считать не особенно существенным, если бы после решения оптимальной задачи этим методом оказалось, что функция цi(x) действительно является непрерывно дифференцируемой. Но дело заключается в том, что даже в простейших, линейных задачах оптимального управления функция цi(x) не является, как правило, всюду дифференцируемой. Тем не менее, методом динамического программирования можно нередко пользоваться как ценным эвристическим средством.

4 ФОРМАЛЬНАЯ ПОСТАНОВКА ЗАДАЧИ

Рассмотрим деятельность фирмы на конечном промежутке времени Т=[0,z], где z горизонт планирования. Под горизонтом планирования подразумевается промежуток времени, на который составляется план как на уровне экономики в целом, так и на уровне отдельного предприятия. Фирма, располагая в момент t є Т капиталом К = K(t), производит однородную продукцию в объеме Q = Q(t) = qK(t), где q -производительность капитала (объем денежных средств, производимый в единицу времени данным капиталом). Произведенная продукция реализуется на несовершенном ринке, принося выручку в объеме S = S(Q(t)). Несовершенный рынок - конкуренция в условиях, когда фирма имеет возможность частично или целиком контролировать цены на продукцию, которую она производит, в отличие от совершенной конкуренции, при которой цены формируются рынком как равновесные в зависимости от спроса и предложения[4]. Например, на нем может отсутствовать достаточная информация о состоянии рынка; или фирма, изменяя объемы своего производства, может воздействовать на изменение цены товаров. Эти отступления от совершенной конкуренции могут достигаться в результате индивидуальных или совместных действий. Используя совершенную конкуренцию в качестве отправной точки, экономисты анализируют специфические формы несовершенной конкуренции, чтобы понять реально существующую неэффективность, такую как масштабная безработица или чрезмерная неустойчивость финансовых рынков.

Капитал фирмы складывается из чистого капитала (капитала акционеров) X = X{t) и кредита Y=Y(t):

. (4.1)

Размер кредита ограничен:

k >0 - константа. (4.2)

В каждый момент времени фирма выдает зарплату wL(t)2 ( w > 0 - ставка заработной платы, L = L(t) - численность рабочих, L(t) =lK(t), l > 0 - трудоемкость реализации единицы капитала), делает амортизационные отчисления, т.е. накопления предприятия для возмещения износа основных средств и учитываются в себестоимости продукции aK(t) (а > 0-норма амортизации), выплачивает проценты по кредиту rY(t) (r > 0 - константа).

Если через D(t), I(t) обозначить значения дивидендов и инвестиций в момент t, через Х0, К0 - начальные объемы чистого и общего капиталов то можно записать следующие балансовые тождества:

,

.

Инвестиции - помещение денежных средств в какие-либо предприятия, организации.

Возьмем производные по времени t от этих тождеств, с учетом равенства (4.1)

.

Таким образом, получили производственно-финансовую модель фирмы в дифференциальной форме

. (4.3)

Доступными управлениями будем называть кусочно-непрерывные функции D(t), I(t), t є T, удовлетворяющие неравенствам

,

где Dmax > 0, Imin < 0, Imax > 0 - заданные числа

Каждой паре доступных управлений D(t), I(t), соответствует единственная траектория X(t), K(t), системы уравнений (4.3). Из (4.2) получим такие траектории системы (4.3), для которых выполняются неравенства

, . (4.4)

Доступные управления D(t), I(t), которые порождают траектории X(t), K(t), , удовлетворяющие неравенствам (4.4), называются допустимыми программными управлениями (программной политикой фирмы). Будем считать, что рассматриваемая фирма акционерная, т.е. ее политика определяется интересами акционеров. В этом случае ценность фирмы представляет взвешенную сумму дисконтированного объема накопленного чистого капитала Х(z) и объема выплаченных дисконтированных дивидендов:

.

Здесь i>0 - норма дисконтирования, а - весовой коэффициент, 0<б*?б?б*<?.

Оптимальной программной назовем такую программную политику (такие допустимые программные управления) D0(t), I0(t), , при которой ценность фирмы максимальна;

.

Таким образом, поиск оптимальной программной политики фирмы сводится к решению следующей задаче оптимального управления:

,

,

. (4.5)

Функции называются оптимальными управлениями типа обратной связи (оптимальной политикой фирмы). Построение функций (4.5) будем называть синтезом оптимальной политики фирмы. Определим, что означает задача синтеза оптимальных управлений. Пусть существует такая функция v(x), заданная в фазовом пространстве Х и принимающая значения в области управления U, что управление , (4.6)

определяет все оптимальные траектории, ведущие в начало координат. Иначе говоря, оптимальное управление оказывается естественным искать не в форме u = u(t), а в форме u = v(x), т.е. искомое оптимальное управление в каждый момент зависит лишь от того, в какой точке пространства находиться в данный момент фазовая точка. Это понятно: ведь если мы уже попали в фазовую точку х, то и дальнейшее движение (из точки х в 0) должно быть оптимальным (ибо часть оптимальной траектории сама является оптимальной траекторией). Поэтому значение оптимального управления u(t) в момент прохождения фазовой точкой положения х зависит только от х, а не от того, в какой точке началось движение, и сколько времени фазовая точка уже двигалась, прежде чем попала в положение х. Функцию v(x), дающую уравнению оптимальных траекторий в форме (4.6), называется синтезирующей функцией, а задачу нахождения синтезирующей функции называется задачей синтеза оптимальных управлений. Знание синтезирующей функции позволяет считать задачу оптимального попадания в начало координат математически решенной до конца.

Итак, запишем задачу оптимального управления в следующем виде:

,

,

, , (4.7)

которая получается из задачи (4.5) после удалении из нее ограничений на инвестиции. Построим сначала оптимальные траектории Хa(t), K a(t), t Т вспомогательной задачи оптимального управления, а затем скорректируем траектории Хa(t), K a(t), t Т.


Подобные документы

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.