Інформаційна технологія прогнозування нестаціонарних часових рядів у задачах управління
Методи прогнозування нестаціонарних часових рядів для виявлення недоліків, пов’язаних з неефективністю існуючих методів для розв’язання даної задачі. Розробка модуля генерування нестаціонарних часових рядів із заданими статистичними характеристиками.
Рубрика | Программирование, компьютеры и кибернетика |
Вид | автореферат |
Язык | украинский |
Дата добавления | 19.06.2018 |
Размер файла | 113,5 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru/
Міністерство освіти і науки, молоді та спорту України
Харківський національний університет радіоелектроніки
Автореферат дисертації на здобуття наукового ступеня
кандидата технічних наук
05.13.06 - інформаційні технології
ІНФОРМАЦІЙНА ТЕХНОЛОГІЯ ПРОГНОЗУВАННЯ НЕСТАЦІОНАРНИХ ЧАСОВИХ РЯДІВ У ЗАДАЧАХ УПРАВЛІННЯ
КАРАМИШЕВА АНАСТАСІЯ ЮРІЇВНА
Харків - 2012
ЗАГАЛЬНА ХАРАКТЕРИСТИКА РОБОТИ
Актуальність теми. Прогнозування техніко-економічної, соціальної та іншої інформації в інформаційних управляючих системах (ІУС) в даний час є актуальною задачею і запорукою ефективного функціонування підприємства в умовах мінливості і невизначеності.
Ефективність функціонування ІУС в значній мірі залежить від досконалості застосовуваних інформаційних технологій, математичних методів, моделей, програмного і технічного забезпечень при розв'язанні функціональних задач.
Слід зазначити, що інформаційні технології, призначені для задач управління підприємствами і виробництвами, потребують розробки математичного забезпечення, яке повинно враховувати специфіку конкретного виробництва. Для підвищення ефективності таких систем в математичному забезпеченні обов'язково повинні бути присутніми моделі прогнозування, побудування яких передбачає достатньо глибокого науково-дослідного опрацювання, що потребує значних витрат. Розробка інформаційної технології прогнозування для нестаціонарних процесів дозволяє істотно спростити розв'язання задачі прогнозування за рахунок наближення науково-дослідних робіт до інженерних. Це дозволить значно скоротити витрати на розробку моделей.
Для забезпечення ефективності використання ІУС в сучасних умовах необхідно розробити інформаційну технологію прогнозування часових рядів, які характеризуються мінливістю структури та статистичних характеристик інформації. Дослідження нестаціонарних часових рядів пов'язане з необхідністю передбачення майбутньої поведінки техніко-економічних станів в умовах наявності мінливих трендів, які характеризуються квазіперіодичністю зі змінною частотою, періодичністю і амплітудою, хаотичністю, непередбачуваністю, наявністю несподіваних стрибків і падінь. Зауважимо, що основне застосування в ІУС знаходять методи прогнозування, в основі яких лежить дотримання гіпотези про стаціонарність, використання яких для нестаціонарних часових рядів не приносить успіху. За таких обставин доводиться шукати нові шляхи вдосконалення методів прогнозування нестаціонарних часових рядів. Виникає необхідність проведення наукових досліджень та розробки інформаційної технології прогнозування для задач управління в таких умовах. Слід зазначити, що деякі дослідження в роботі ґрунтуються на наукових результатах видатних українських та закордонних вчених.
Для розв'язання даної задачі пропонується використовувати кластерний аналіз для розбиття сукупності вихідного часового ряду на локальні області зі схожими статистичними характеристиками. У таких областях визначається структура моделі прогнозування і оцінюються її параметри. Розроблені моделі є апріорною інформацією для побудови прогнозу за останніми вимірами часового ряду.
Оскільки для нестаціонарних стохастичних процесів характерна мінливість статистичних характеристик в широких межах, розробка узагальненої інформаційної технології прогнозування, що враховує специфіку багатьох предметних областей, являє собою певні труднощі.
У зв'язку з цим обґрунтовано необхідність розробки інформаційної технології прогнозування для задач управління за допомогою кластерного аналізу з подальшим вибором ефективного методу локальної апроксимації, який би забезпечував заданий рівень адекватності, на прикладі газотранспортної системи.
Таким чином, розробка інформаційної технології трансформації структури часового ряду на базі кластерного аналізу і локальних методів апроксимації дозволить формалізовано підійти до вибору методу прогнозування і забезпечить ефективність функціонування IУС, що, безумовно, є актуальною науковою задачею.
Зв'язок роботи з науковими програмами, планами, темами. Робота виконувалася у відповідності з планом науково-дослідних робіт Харківського національного університету радіоелектроніки в рамках держбюджетної теми № 243 «Методи, моделі та інформаційні технології розбудови соціально-економічної мережі з метою інтеграції у європейський простір» (№ ДР 0109U002497).
Мета і задачі дослідження. Мета дисертаційної роботи полягає у розвитку методів прогнозування нестаціонарних часових рядів та створенні на базі цих методів науково обґрунтованої інформаційної технології для задач управління за допомогою кластерного аналізу і локальних методів апроксимації.
Для досягнення поставленої мети в дисертаційній роботі необхідно розв'язати такі задачі:
- провести аналіз моделей і методів прогнозування нестаціонарних часових рядів на прикладі інформаційних систем різного призначення;
- удосконалити множину характеристик для дослідження нестаціонарних часових рядів шляхом розробки додаткових динамічних показників, що дозволить підвищити ефективність кластеризації;
- розробити модуль імітаційної моделі, який дозволяє генерувати нестаціонарні часові ряди із заданими статистичними характеристиками і проводити вибір ефективних методів кластеризації і моделей локальної апроксимації;
- удосконалити метод розбиття нестаціонарного часового ряду на кластери, що дозволить ідентифікувати для кожного з них модель прогнозування;
- побудувати локальні моделі прогнозування нестаціонарного часового ряду і оцінити їхню адекватність;
- розробити інформаційну технологію прогнозування нестаціонарних часових рядів для задач управління;
- провести апробацію отриманих результатів на прикладі газотранспортної системи.
Об'єктом дослідження є прогнозування нестаціонарних процесів у задачах управління.
Предметом дослідження є методи, моделі та інформаційна технологія прогнозування нестаціонарних часових рядів.
Методи дослідження. Для розробки інформаційної технології прогнозування нестаціонарних часових рядів було використано методи статистичного аналізу часових рядів, методи теорії ймовірностей та математичної статистики, методи аналізу та прогнозування часових рядів. Для оцінки ефективності методів прогнозування використовувалася теорія імітаційного моделювання. Для проведення кластеризації часового ряду використовувалася теорія розпізнавання. Для побудови локальних моделей прогнозування використовувалися методи прогнозування, методи теорії багатовимірного статистичного аналізу.
Наукова новизна отриманих результатів. В рамках розв'язання задач дисертаційного дослідження отримано такі наукові результати:
1. Вперше розроблено модуль генерування нестаціонарних часових рядів із заданими статистичними характеристиками, що дозволяє проводити вибір ефективних методів кластеризації і моделей локальної апроксимації шляхом імітаційного моделювання.
2. Удосконалено моделі аналізу нестаціонарних часових рядів шляхом розширення множини динамічних характеристик, які на відміну від існуючих дають можливість більш якісно оцінити близькість вихідних даних, що дозволяє підвищити ефективність кластеризації.
3. Отримав подальший розвиток метод розбиття нестаціонарних часових рядів на кластери, який на відміну від існуючих враховує динамічні показники часового ряду, що дозволяє ідентифікувати для кожного з отриманих кластерів модель прогнозування.
На базі отриманих наукових результатів розроблено інформаційну технологію прогнозування нестаціонарних часових рядів з використанням кластерного аналізу і локальних методів апроксимації, що дозволяє підвищити ефективність розробки моделей прогнозування нестаціонарних часових рядів у задачах управління і забезпечити заданий рівень їх адекватності.
Практичне значення отриманих результатів. Практична цінність дисертаційного дослідження полягає у можливості використання розробленої інформаційної технології прогнозування нестаціонарних часових рядів в умовах мінливості структури вихідної інформації, що дозволяє проводити вибір методу прогнозування в залежності від статистичних характеристик нестаціонарного часового ряду та значно поліпшити ефективність математичного забезпечення IУC. Практичний результат дисертаційної роботи полягає в підвищенні ефективності управлінських рішень в газотранспортній промисловості за допомогою адекватних моделей прогнозування техніко-економічної інформації. Значно зменшуються витрати на розробку модуля прогнозування в ІУС.
Теоретичні результати доведено до інженерних методик, алгоритмів і програм. Розроблені методики дозволяють створювати програмні модулі прогнозування в ІУС для багатьох предметних галузей.
Особистий внесок здобувача. Основні положення і результати дисертаційної роботи одержані авторкою самостійно. У публікаціях, написаних у співавторстві, авторці належать такі результати: [1] - розроблено інформаційну технологію прогнозування нестаціонарних часових рядів з використанням кластерного аналізу і локальних методів апроксимації, що дозволяє забезпечити заданий рівень адекватності і підвищити ефективність розробки моделей прогнозування нестаціонарних часових рядів у задачах управління; [2] - розроблено процедуру прогнозування нестаціонарних часових рядів в умовах гетероскедастичності з розробкою ARCH-моделей, які характеризують мінливість динамічних показників нестаціонарних часових рядів; [3] - розроблено процедуру оцінювання ефективності та вибору методу кластеризації і моделі локальної апроксимації на базі імітаційного моделювання; [4] - запропоновано проведення розбиття нестаціонарного часового ряду на кластери за допомогою кластерного аналізу, для цієї мети в якості критеріїв кластеризації запропоновано використовувати динамічні показники нестаціонарного часового ряду; [5] - запропоновано кластерний інтегрований підхід для розв'язання рекрутингових задач; показано можливість розбиття резюме і вакансій на підкластери за динамічними показниками нестаціонарних часових рядів; [6] - розроблено процедуру вибору методу кластеризації в залежності від динамічних показників вихідних даних; [7] - розв'язано задачу одержання прогнозу згідно з зазначеним рівнем достовірності, а також розроблено систему критеріїв для оцінювання ефективності моделей прогнозування; [8] - побудовано моделі прогнозування у кожному кластері з урахуванням ризику, отриманого з оцінювання волатильності стохастичних часових рядів; [9] -розроблено модуль імітаційної моделі, що генерує нестаціонарні часові ряди із заданими статистичними характеристиками та здійснює вибір ефективного методу кластеризації; [10] - розглянуто вплив інформативності динамічних показників на результати прогнозування; [11] - розроблено процедуру попереднього опрацювання інформації в умовах гетероскедастичності, запропоновано використання статистики рекурсивних залишків для підвищення потужності стандартних тестів на перевірку ARCH-процесів; [12] - запропоновано ІТ прогнозування нестаціонарних часових рядів у фізичних системах.
Апробація результатів дисертації. Результати дисертаційної роботи були апробовані на:
- Міжнародній науково-практичній конференції «Современные информационные и электронные технологии» (Одеса, 2007).
- Міжнародній конференції “Сучасні проблеми радіоелектроніки, телекомунікацій, комп'ютерної інженерії” (Львів, 2008).
- Міжнародній науково-технічній конференції CADSM 2009 (“Досвід розробки та застосування приладо-технологічних САПР в мікроелектроніці”, Львів).
- Всеукраїнській науково-практичній конференції “Інформаційні технології в наукових дослідженнях і навчальному процесі” (Луганськ, 2005).
- Міжнародному форумі «Радиоэлектроника и молодежь в XXI веке» (ХНУРЕ, Харків, 2006).
- VIII конференції з фізики високих енергій, ядерної фізики та прискорювачів (ННЦ ХФТІ, Харків, 2010).
Публікації. Матеріали дисертації опубліковано у 12 наукових працях (5 статтях в наукових журналах, що входять до переліку фахових видань України з технічних наук, і 7 тезах доповідей на міжнародних і всеукраїнських наукових конференціях).
Структура і обсяг роботи. Дисертація складається з вступу, чотирьох розділів, висновків, додатків і переліку використаних джерел. Загальний обсяг роботи складає 223 сторінки, основний текст дисертації викладено на 141 сторінці. Робота містить 15 малюнків, з яких 2 викладено на 3 сторінках, 10 додатків (викладених на 70 сторінках). Перелік використаних джерел зі 107 найменувань викладено на 9 сторінках.
ОСНОВНИЙ ЗМІСТ РОБОТИ
У вступі обґрунтовано актуальність теми дисертації і надано оцінку сучасного стану проблеми, сформульовано мету і задачі дослідження, відображено новизну і практичну цінність отриманих результатів роботи, подано інформацію про особистий внесок авторки, відомості про апробацію роботи, про публікації та структуру дисертації. Наведено дані про використання результатів проведених досліджень.
У першому розділі проведено аналіз сучасного стану проблеми прогнозування в інформаційно-управляючих системах, розглянуто актуальність проблеми прогнозування нестаціонарних часових рядів. Проведено короткий аналіз предметних галузей, розглянутих у роботі.
Необхідність застосування інформаційних технологій прогнозування обумовлюється низкою причин, у числі яких:
- зростання обсягів інформації;
- різноманіття і складність розв'язання функціональних задач в ІУС;
- високі вимоги до якості методів і алгоритмів розрахунку, а також інтерпретації результатів прогнозів;
- необхідність використання результатів прогнозування для розв'язання задач планування і управління.
Розглянуто актуальність задачі створення інформаційної технології прогнозування нестаціонарних часових рядів, яка є складовою частиною загальної технології створення ІУС. Присутність нестаціонарних часових рядів має місце для багатьох предметних областей. В роботі в якості предметної області обрано газотранспортну систему, тому що для неї також характерні нестаціонарні часові ряди.
У зв'язку з тим, що якісні і кількісні характеристики нестаціонарних часових рядів змінюються в різні моменти часу, змінюються і методи їх прогнозування. Для автоматичного відшукання найбільш ефективного методу, який відповідає стану часового ряду на даний момент, пропонується відшукати схожі ділянки часового ряду методом кластерного аналізу і для них побудувати локальні моделі, використовуючи найбільш ефективні методи прогнозування.
Розв'язання вище викладених задач дозволить при надходженні поточної інформації в реальному часі визначити відповідну локальну модель, для якої відома структура і метод побудови прогнозу. Параметри моделі будуть перераховуватися в залежності від поточної інформації.
Для побудови локальних моделей прогнозування запропоновано модернізувати методи регресійного аналізу, а також авторегресії та проінтегрованого ковзного середнього, тому що на сьогоднішній день вони є найбільш перспективними.
В другому розділі розв'язано задачу синтезу та аналізу процедури попередньої обробки даних з метою розробки формалізованого підходу до вибору методу прогнозування, розроблено модуль генерування нестаціонарних часових рядів із заданими статистичними характеристиками, який дозволив проводити вибір ефективних методів кластеризації і моделей локальної апроксимації шляхом імітаційного моделювання.
Процедуру попередньої обробки нестаціонарних часових рядів представлено у вигляді розв'язання таких задач: організації вихідних даних; розробки імітаційної моделі; віднесення ряду до TS або DS класу, оцінки гетероскедастичності, волатильності і оцінки структури ряду.
Для нестаціонарних стохастичних часових рядів запропоновано мінливість динаміки часового ряду оцінювати за системою статистичних показників, які враховують рівень змін, чи є ця зміна рівномірною або має місце прискорення, наявність тенденції зміни динаміки (наявність тренду), коливальність. В якості додаткових динамічних показників введено поняття ступеня волатильності і ступеня загасання волатильності. Під ступенем волатильності ш мається на увазі відношення різниці двох сусідніх амплітуд одного знаку до більшої з них:
(1)
де ш - ступінь волатильності;
- сусідні амплітуди.
Ступінь загасання волатильності визначається зі співвідношення:
, (2)
де m - ступінь загасання волатильності.
Показано, що перевірка гіпотез на наявність гетероскедастичності при використанні критеріїв White, Goldfeld-Quanlt, Вreusch-Pagan, Gltsjer та інших ускладнюється при наявності мінливості умовного середнього. Проблема мінливості умовного середнього вирішується з використанням рекурсивних залишків. Серед багатьох стандартних тестів мінливості моделі з використанням рекурсивних залишків збільшують потужність тестів. Пропонується процедура отримання рекурсивних залишків. Для отримання рекурсивних залишків необхідно почати з k-1 спостереження для якогось визначеного k і виконати рекурсивне оцінювання для решти Т-k спостережень. Процедура тестування така, що спочатку оцінюється AR(1). При оцінці AR(1) з постійним авторегресійним коефіцієнтом, тест залишків на ARCH(1) відхиляє нульову гіпотезу відсутності умовної гетероскедастичності, якщо значення статистики велике.
Формалізовано визначити найбільш ефективний метод побудови моделі прогнозування для нестаціонарних часових рядів сьогодні практично неможливо. Найбільш перспективним є синтез та аналіз методів прогнозування шляхом імітаційного моделювання, яке спирається на знання закономірностей предметної області та дозволяє описати складні нелінійні взаємодії параметрів даних. Основна мета розробки модуля імітаційної моделі полягає в зіставленні результатів роботи тих чи інших кластерних процедур і оцінки їхньої ефективності. Ефективність дослідження залежить від виду вихідних даних і схеми проведення порівняльного аналізу. Модуль містить функції розрахунку імовірнісних характеристик, ортогоналізації, моделювання вибірки з властивостями, зумовленими значеннями параметрів моделювання. Моделювання виконується відповідно до обчислювальної схеми імітаційного моделювання. У розробленому модулі генеруються одномірні псевдовипадкові вибірки із заданими імовірнісними характеристиками і щільністю розподілу. Модуль забезпечує генерацію багатовимірної вибірки незалежних змінних, де задаються параметри імітаційного експерименту, що відображають статистичні властивості модельованої вибірки заданими кореляційними властивостями і мінливою умовною дисперсією (волатильністю).
Далі досліджується можливість використання сингулярного спектрального аналізу SSA (Singular Spectrum Analysis) для оцінки структури часового ряду, виділення окремих його складових (тренда, періодичних і випадкових складових), а також прогнозування як самого ряду, так і тенденції розвитку його складових.
В основі методу лежить ідея створення повторюваності шляхом переходу від часового ряду до послідовності векторів, що складаються з відрізків часового ряду обраної довжини. Таким чином, формується багатовимірна вибірка (траєкторна матриця), за допомогою її сингулярного розкладання можна розкласти ряд на суму складових, причому інформація про кожну з них міститься в сингулярних числах і векторах.
У третьому розділі удосконалюється метод розбиття нестаціонарних часових рядів на кластери.
Основна проблема розробки методу розбиття часового ряду на кластери полягає в тому, що загальної точної постановки задачі кластерного аналізу не існує. Більш того, виникає необхідність у трансформації одновимірної числової послідовності в багатовимірну. Це пов'язано з тим, що різноманіття специфічних особливостей об'єктів управління породжує безліч вимог до процедури кластеризації.
Якщо відомі взаємні відстані між об'єктами множини Х, де n - безліч об'єктів, кожен з яких характеризується m ознаками, кожен об'єкт представляється як точка в m-вимірному ознаковому просторі.
Вихідні дані можуть бути представлені у вигляді матриці взаємних відстаней об'єктів у вигляді функцій близькості чи віддаленості. Близькість даних визначається зіставленням значення функції , , для кожної пари даних з обраним пороговим значенням. Задаючи спосіб обчислення величини , що характеризує віддаленість або близькість об'єктів і вихідного часового ряду Х, «схожість» можна визначити за правилом: якщо <, , , дані вважаються схожими і потрапляють в один кластер.
Проблема вибору є найбільш актуальною, оскільки від цього повністю залежить розбиття множини на кластери. Вибір міри відстані залежить від природи часового ряду, форми кластерів та їхнього розташування між собою.
В якості ознак кластеризації використано динамічні характеристики часового ряду. В основу визначення граничних значень динамічних показників покладено адекватність локальних моделей. Для кожного кластера визначено пороги динамічних показників, сформовано кластери за принципом схожості динамічних показників та їхньої міри близькості до центру кластера і далі проведено побудову локальних моделей прогнозування за даними кластеризації.
Далі розробляється узагальнена процедура вибору методу кластеризації. Для розв'язання задачі вибору методу кластеризації нестаціонарних часових рядів запропоновано використовувати результати порівняльного аналізу таких методів: метод одиночного зв'язку (ближнього сусіда); метод повного зв'язку (далекого сусіда); метод К-середніх, варіант Болла і Холла, об'єднаний з алгоритмом Боннера; незважений метод середнього зв'язку; зважений метод середнього зв'язку; незважений центроїдний метод; групове середнє, зважений центроїдний метод, метод Уорда (мінімізації збільшення дисперсії), які присутні у багатьох пакетах прикладних програм. Цей вибір зумовлений необхідністю розв'язати задачу кластеризації на інженерному рівні і запропонувати користувачеві обґрунтовані рекомендації щодо застосування того чи іншого методу в залежності від динамічних і статистичних характеристик нестаціонарного часового ряду.
В якості показників якості кластеризації використовувалися коефіцієнт спряженості Крамера (Кк), коефіцієнт Хемінга (Кх) і сума внутрішньокласових дисперсій (D) за всіма ознаками, що розраховується відношенням дисперсії алгоритмічного розбиття до дисперсії згенерованої вибірки. Використовуються інформаційні чи дисперсійні критерії оцінки нелінійних зв'язків, які характерні для нестаціонарних часових рядів.
На основі проведених досліджень визначено, що зі збільшенням числа кластерів при ефективній кластеризації значення коефіцієнта Кх збільшується. Зі збільшенням числа ознак значення коефіцієнта Кк зменшується, що свідчить про погану кластеризацію. При зменшенні числа кластерів і збільшенні розмірності простору якість кластеризації знижується: коефіцієнти Кк, Кх зменшуються, коефіцієнт D збільшується. Але коефіцієнт D за своєю будовою ніяк не пов'язаний з числом кластерів, хоча має таку ж чітку тенденцію. Отже, зазначена залежність пов'язана з характером процесу кластеризації. Залежність критеріїв якості від розмірності простору пов'язана зі збільшенням загального обсягу, що займає кластер, зростанням відстаней за абсолютною величиною, завдяки чому зростає і загальний розкид в матриці відстаней. У цілому можна зробити висновок, що слід прагнути обробляти масиви невисокої розмірності і виділяти, за можливістю, досить велику кількість кластерів -- результати будуть надійнішими.
Дослідження залежності критеріїв ефективності кластеризації від розмірності простору для нестаціонарних часових рядів показало, що кількість кластерів розбиття буде залежати від граничних значень схожості динамічних показників.
Дослідження близькості кластеризації різними алгоритмами показали різницю в розбитті. Найбільш прийнятними алгоритмами для кластеризації нестаціонарних часових рядів є процедури мінімізації дисперсії і алгоритм К-середніх. Центроїдний метод і метод групового середнього мають ідентичні результати. У більшості випадків задовільні результати кластеризації отримуємо при використанні алгоритмів незваженого центроїдного методу і групового середнього або зваженого центроїдного методу. Отримані експериментальні результати оцінки ефективності методів кластеризації придатні і можуть бути використані тільки в умовах проведення експериментів.
Розширення кількості ознак, відшукання найбільш інформативних серед них, розширення кількості критеріїв оцінки якості кластеризації дозволять істотно підвищити ефективність вибору відповідних методів для конкретних умов.
Дослідження впливу шуму на якість кластеризації показало, що стійкість методів кластеризації знижується в залежності від зростання розмірності і числа кластерів. Необхідно зауважити, що різні алгоритми мають різну чутливість до впливу шуму. Аналіз показує, що найбільш надійним методом при наявності шуму є метод мінімізації дисперсії.
На підставі проведених досліджень можна зробити висновок, що суттєвих відмінностей в ефективності алгоритмів кластеризації нестаціонарних часових рядів не спостерігається. Для одержання загальної оцінки ефективності алгоритмів кластеризації необхідно значно розширити діапазон варіювання основних параметрів, які впливають на якісні показники алгоритмів.
У результаті дослідження за фіксованими даними в роботі показано, що ефективність методів кластеризації залежить від якості і кількості простору ознак, а також від вибору їх критичних значень.
Якість кластеризації істотно залежить від вибору матриці станів і «вікна», яке містить певну кількість даних у багатовимірному просторі. Найбільш ефективними виявилися агломеративні ієрархічні кластер-процедури.
Базуючись на експериментальних дослідженнях, запропоновано використовувати комбінований метод кластеризації, який полягає в послідовному об'єднанні спочатку найближчих елементів (алгоритм ближнього сусіда), а потім і цілих груп все більш і більш віддалених один від одного елементів (алгоритм К-середніх, який добре працює у випадку угруповань, що мають складну, зокрема, ланцюгову структуру).
Розроблено послідовну процедуру комбінованого методу кластеризації. Спочатку визначаються динамічні показники часового ряду. Далі використовується процедура найближчого сусіда, в якій відстань між кластерами, що є об'єднанням двох інших класів, можна визначити за формулою:
, (3)
де - відстані між кластерами Sl, Sm і Sq;
і - числові коефіцієнти, значення яких визначають специфіку процедури та її алгоритм.
При і<0 приходимо до відстані, побудованої за принципом "найближчого сусіда". При і>0 відстань між кластерами визначається за принципом "дальнього сусіда", як відстань між двома найбільш далекими елементами цих класів. І нарешті, при приходимо до відстані між кластерами, що розраховується як середня з відстаней між всіма парами елементів, один з яких береться з одного кластера, а другий - з іншого. У кінці використовується процедура К-середніх.
У четвертому розділі розроблено інформаційну технологію прогнозування для нестаціонарних часових рядів. Проведено дослідження доцільності використання регресійного аналізу, зміщених методів оцінювання а також дослідження ефективності використання методів ARIMA для побудови локальних моделей прогнозування. Проведено апробацію розробленої інформаційної технології на газотранспортній системі.
Досліджено вплив кількості «сусідів» на ступінь мультиколінеарності інформаційної матриці для різних показників якості нестаціонарних часових рядів. Показано, що для показника приросту при збільшенні кількості сусідів мультиколінеарність збільшується незначно. Найкращі результати щодо адекватності моделей отримані при використанні гребеневих оцінок у разі дотримання передумов і припущень регресійного аналізу, крім припущення про мультиколінеарність. На підставі результатів імітаційного моделювання зроблено такі висновки щодо доцільності використання регресійного аналізу для побудови локальних моделей прогнозування нестаціонарних часових рядів: регресійний аналіз в класичному вигляді використовувати не доцільно, тому що має місце мультиколінеарність інформаційної матриці, складеної з «сусідів»; найбільш задовільні результати можна отримати при застосуванні гребньової регресії.
Запропоновано використання оцінки міри мінливості умовної дисперсії для поліпшення передбачуваних властивостей моделі прогнозування. Помилка прогнозу в попередній точці t використовується для коригування прогнозу в точці t+1 з урахуванням прогнозованого значення помилки в точці t+1. Прогнозовані значення помилки пропонується оцінювати за допомогою методу авторегресії в умовах гетероскедастичності (ARCH).
Для синтезу моделі прогнозування запропоновано оцінити величину кореляції між помилками, зробленими в один і той же момент часу з різними упередженнями. Генерування числових послідовностей часових рядів без сезонних складових показало, що помилки прогнозу (?) і (?+j), зроблені для різних упереджень (?+j), з одного і того ж моменту часу t, а також з тим самим упередженням з різних моментів часу t і t-j є корельованими. Отже, якщо помилки прогнозу корельовані, тобто є динамічними, то можливо побудувати модель по відомим помилкам прогнозу , , , ….
Вплив зміни факторів і зовнішніх збурень призводить до збільшення помилок прогнозу. У зв'язку з цим виникає потреба в наявності процедури поточної оцінки адекватності моделей прогнозування, яка включає в себе не тільки перевірку припущень про доцільність їх використання на практиці, але й розробку рекомендацій з удосконалення якості прогнозу в ітеративному циклі.
Запропоновано проведення комплексної діагностичної перевірки моделі прогнозування за допомогою аналізу автокореляційних функцій, кумулятивної періодограми залишкових помилок і довірчих інтервалів прогнозних значень. Проведено дослідження впливу кількості спостережень на адекватність моделі прогнозування, одержано залежність помилки прогнозу метода ARIMA від кількості спостережень.
Показано, що для моделі ARIMA ширина довірчого інтервалу збільшується в 2(n+1/n) разів. Таким чином, для великих вибірок ймовірні межі для вибіркових оцінок змінюються незначно. Оцінюється вплив кореляції між помилками прогнозу, величинами «занурення» в минуле lt, lt-1, …, lt-q. Для цього визначається середньоквадратична помилка прогнозу для моделі, представлена як нескінченна зважена сума поточного і попередніх імпульсів ej у вигляді:
E[еt(l)]2=(1+q21+…+q2l-1)у2e+(ql+j-ql+j)2у2e;(4)
де еt(l)=yt+l-t(l) - помилка прогнозу t(l);
E[еt(l)]2 - умовне математичне еt(l) за умови, що всі y до моменту t відомі.
Таким чином, умовне математичне очікування yt+l в момент t є прогнозом з мінімальною середньоквадратичною помилкою.
Наближені (1-) процентні ймовірнісні межі будуть мати вигляд:
yt+0(±)=(l)±U/2{1+}Se, (5)
де U/2 - квантиль рівня 1-/2 стандартного нормального розподілу.
Отже, якщо відома інформація про стан динамічного ряду до моменту t, то з ймовірністю (1-) спостережне значення yt+l буде розміщено в цих межах. Точність прогнозу буде залежати від точності визначення коефіцієнтів aj і величини дисперсії e2. Не можна стверджувати, що ряд опиниться всередині всіх меж із заданою ймовірністю.
Довірчий інтервал розраховується для випадку, коли оцінки параметрів моделі відомі точно. Для реальних динамічних рядів маємо вибіркові оцінки p і q, що призводить до збільшення дисперсії помилки і, отже, до збільшення довірчих інтервалів.
На підставі проведених досліджень і результатів імітаційного моделювання запропоновано інформаційну технологію побудови моделі прогнозування нестаціонарних часових рядів, що складається з таких етапів:
Етап 1. Збір, попередня обробка та зберігання даних. Перший етап складається з таких операцій:
1.1 Отримання вихідних даних за необхідний період з заданим часовим інтервалом. Експорт даних у формат, необхідний для відкриття файлу даних в модулі прогнозування.
1.2 Попередній аналіз даних. Визначення викидів графічним способом. Якщо викиди є, виконується процедура їх усунення. Якщо викидів немає, перехід до наступного кроку.
1.3 Перетворення часового ряду в ряди динамічних показників.
Етап 2. Визначення статистичних характеристик вихідних даних.
2.1 Перевірка на випадковість. Якщо ряд випадковий, перехід на наступний крок, інакше - пропонується використовувати для прогнозування детерміновані моделі.
2.2 Перевірка на стаціонарність. Якщо ряд стаціонарний - перехід на наступний крок, інакше - виконується перетворення даних в стаціонарний ряд.
2.3 Перевірка гіпотези про нормальність розподілу вибірки. Якщо ряд розподілений за нормальним законом розподілу, використовується модель Homo (постійної дисперсії), інакше - набір моделей для прогнозування наступний: GARCH, EGARCH, RM, HS.
2.4 Перевірка гіпотези про наявність гетероскедастичності. Якщо гетероскедастичність відсутня, використовується модель HS, інакше - перехід на наступний крок.
2.5 Здійснюється перевірка на обсяг вибірки. Якщо даних менше 1000 значень, використовується модель RM, інакше - перехід на наступний крок.
Етап 3. Розробка імітаційної моделі, яка дозволяє формалізувати вибір методу кластеризації, моделювати дані найрізноманітнішої структури, проводити порівняльний аналіз методів кластеризації та прогнозування.
Етап 4. Розбиття нестаціонарних часових рядів на схожі кластери. Оцінюється «схожість» часового ряду. Для розв'язання даної задачі проводиться аналіз методів; визначаються або вибираються критерії ефективності; вибираються якісні та кількісні показники оцінки «схожості». Визначається структура моделі та параметри; будуються моделі прогнозування.
Етап 5. Розв'язання задачі вибору методів кластеризації нестаціонарних часових рядів.
5.1 Вибір міри близькості об'єктів. Часовий ряд, як правило, має сукупність кількісних даних, які характеризуються такими показниками: лінійна відстань; Евклідова відстань; узагальнена відстань Мінського; відстань Махалонобіса та ін.
5.2 Вибір характеристик ознак для номінальних шкал (коефіцієнт РАО, коефіцієнт Хемінга, коефіцієнт Роджерса-Тамото, коефіцієнт Жаккарда) і міри близькості для довільних шкал у вигляді міри Журавльова, Вороніна, Міркіна.
5.3 Оцінка ефективності застосовуваних методів кластеризації, які, за необхідністю, модернізуються з урахуванням специфіки предметної галузі.
Етап 6. Розробка локальних моделей прогнозування з урахуванням мінливості структури часового ряду. Оцінювання адекватності моделей і апробація отриманих результатів.
Етап 7. Перевірка на ефект леверидж. Якщо він присутній, використовується модель EGARCH, інакше - використовується модель GARCH.
Етап 8. Визначення оптимальних параметрів моделей прогнозування.
8.1 Оцінювання параметрів методів і моделей прогнозування GARCH, RM, Homo, HS.
8.2 Оптимізація параметрів методів і моделей прогнозування.
8.3 Визначення, чи необхідне коригування прогнозу. Якщо необхідне, прогноз коригується з урахуванням поправки прогнозу.
Етап 9. Розрахунок критеріїв ефективності моделі прогнозування.
9.1 Розрахунок помилки прогнозу, яка враховується при прогнозуванні на кроці 4.2.
9.2 Визначення необхідності прогнозу на наступний крок. Якщо так, перехід на крок 4.1, якщо ні - завершення процесу прогнозування.
На рисунку 1 представлено основні етапи розробленої інформаційної технології прогнозування нестаціонарних часових рядів.
Апробацію інформаційної технології проведено на газотранспортній системі. Розроблена авторкою інформаційна технологія прогнозування в умовах гетероскедастичності на базі кластерного аналізу використана при розв'язанні задачі короткострокового прогнозування витрат газу в системі оперативно-диспетчерського управління магістральними газопроводами України. Це дозволило виконувати прогнозування об'єму газу на подальший період, підвищити надійність транспортування газу, зменшити витрати енергетичних ресурсів на експлуатацію газопроводу. Результати дисертаційної роботи можуть успішно використовуватися у комплексі задач «Аналіз і управління нештатними режимами магістральних газопроводів», розв'язання яких дозволить підвищити ефективність синтезу моделей прогнозування і отримати економічний ефект за рахунок підвищення оперативності і надійності функціонування системи транспортування газу.
Рисунок 1 - Основні етапи інформаційної технології прогнозування нестаціонарних часових рядів
У додатках представлено результати експериментальних досліджень, акти про впровадження результатів дослідження в Науково-дослідний і проектний інститут транспорту газу та навчальний процес Харківського національного університету радіоелектроніки.
ВИСНОВКИ
нестаціонарний часовий генерування статистичний
У дисертаційній роботі одержано результати, які, у відповідності до мети дослідження, дозволяють на базі розвитку методів прогнозування нестаціонарних часових рядів розробити науково обґрунтовану інформаційну технологію для задач управління за допомогою кластерного аналізу з подальшим вибором ефективного методу локальної апроксимації, який би забезпечував заданий рівень адекватності.
На основі теоретичних і експериментальних досліджень можливо формалізовано підійти до вибору ефективного методу прогнозування нестаціонарних часових рядів і забезпечити ефективність функціонування IУС.
При цьому отримано таки результати:
1. Проведено аналіз моделей і методів прогнозування нестаціонарних часових рядів на прикладі інформаційних систем різного призначення.
2. Удосконалено моделі аналізу нестаціонарних часових рядів шляхом застосування таких динамічних характеристик як ступінь затухання і ступінь коливальності волатильності, що дозволило підвищити ефективність оцінки однорідності вихідних даних.
3. Розроблено модуль генерування нестаціонарних часових рядів із заданими статистичними характеристиками, що дозволило проводити вибір ефективних методів кластеризації і моделей локальної апроксимації шляхом імітаційного моделювання.
4. Удосконалено метод розбиття нестаціонарного часового ряду на кластери, що дозволило ідентифікувати для кожного з них модель прогнозування.
5. Запропоновано основні етапи оцінки структури вихідної послідовності даних.
6. Удосконалено перевірку гіпотез на наявність гетероскедастичності, коли умовне середнє змінюється з часом. Для розв'язання даної задачі запропоновано використовувати рекурсивні залишки, робастні до мінливості умовного середнього.
7. Для ідентифікації складових нестаціонарних часових рядів запропоновано використовувати сингулярне розкладання матриці затримок.
8. Досліджено найбільш популярні алгоритми, до яких віднесено метод одиночного зв'язку, метод повного зв'язку, метод К-середніх, незважений метод середньої зв'язку, зважений метод середньої зв'язку (метод медіан), алгоритм простого середнього, групове середнє, центроїдний метод, метод мінімізації збільшення дисперсії. Показано, що процедуру кластеризації необхідно розглядати в комплексі з процедурою побудови моделі прогнозування.
9. У результаті проведених імітаційних експериментів з оцінки якості алгоритмів кластеризації встановлено, що зі збільшенням кількості ознак кластеризації ефективність алгоритмів знижується. Зі збільшенням кількості кластерів ефективність кластеризації збільшується.
10. Побудовано локальні моделі прогнозування нестаціонарного часового ряду на підставі досліджень ефективності алгоритмів кластеризації.
11. На базі отриманих наукових результатів розроблено інформаційну технологію прогнозування нестаціонарних часових рядів з використанням кластерного аналізу і локальних методів апроксимації, що дозволило підвищити ефективність розробки моделей прогнозування нестаціонарних часових рядів у задачах управління і забезпечити заданий рівень їх адекватності.
12. Проведено апробацію отриманих результатів на прикладі газотранспортної системи.
СПИСОК ОПУБЛІКОВАНИХ ПРАЦЬ ЗА ТЕМОЮ ДИСЕРТАЦІЇ
1. Шамша Б.В. Информационная технология построения моделей прогнозирования нелинейных временных рядов в условиях гетероскедастичности / Б.В. Шамша, А.Ю. Гуд (Карамышева), А.Н. Одейчук // Восточно-Европейский журнал передовых технологий. - 2010. - №1/4 (43). - С. 58-61.
2. Шамша Б.В. Прогнозирование рыночных рисков в условиях гетероскедастичности финансовых временных рядов / Б.В. Шамша, Е.Г. Федоров, А.Ю. Гуд (Карамышева) // Вестник Национального технического университета «ХПИ». - 2007. - №6. - С. 134-143.
3. Одейчук А.М. Імітаційна модель для дослідження гетероскедастичних часових рядів в інформаційних системах / А.М. Одейчук, А.Ю. Гуд (Карамишева) // Вісник Академії митної служби України. - 2010. - №1 (43). - С. 102-110.
4. Шамша Б.В. Локальные модели прогнозирования нелинейных временных рядов в условиях гетероскедастичности / Б.В. Шамша, Т.Б. Шатовская, А.Ю. Гуд (Карамышева) // Открытые информационные и компьютерные технологии. - 2010. - Вып. 45. - С. 258-265.
5. Шамша Б.В. Интеллектуальная рекрутинговая система / Б.В. Шамша, Т.Б. Шатовская, А.Ю. Гуд (Карамышева) // АСУ и приборы автоматики. - 2008. - Вып. 144. - С. 49-54.
6. Шатовская Т.Б. Сравнительный анализ эффективности кластеризации объектов на основе байесовских и нейронных сетей / Т.Б. Шатовская, А.Ю. Гуд (Карамышева) // Міжнародна науково-практична конференція “Інформаційні технології в наукових дослідженнях і навчальному процесі”: Тези доп. - 2005. - С. 199-200.
7. Гуд (Карамышева) А.Ю. Синтез байесовских сетей на основе априорной информации / А.Ю. Гуд (Карамышева), Е.С. Непомилуева // X Международный молодежный форум «Радиоэлектроника и молодежь в XXI веке»: Сб. материалов форума. - 2006. - С. 372.
8. Shatovskaya Т. Application of the Bayesian Networks in the Information Modeling / Т. Shatovskaya, V. Repka, А. Good (Karamysheva) // Матеріали Міжнародної конференції “Сучасні проблеми радіоелектроніки, телекомунікацій, комп'ютерної інженерії”. - 2006. - С. 108.
9. Репка В.Б. Программное обеспечение интеллектуального анализа данных / В.Б. Репка, Т.Б. Шатовская, А.Ю. Гуд (Карамышева), А.Н. Харченко // Труды Восьмой международной научно-практической конференции «Современные информационные и электронные технологии». - 2007. - С. 75.
10. Andrey Odeychuk. The Expert System of Search the Forecasting Method with Using of Neural Network in Volatility Conditions of Initial Data / Andrey Odeychuk, Olesya Morozova, Anastasiya Gud (Karamysheva) // Матеріали Міжнародної конференції “Сучасні проблеми радіоелектроніки, телекомунікацій, комп'ютерної інженерії”. - 2008. - С. 55.
11. Anastasiya Gud (Karamysheva). Forecasting and Discriminant Analysis / Anastasiya Gud (Karamysheva), Tetyana Shatovska // Матеріали Міжнародної науково-технічної конференції CADSM 2009 “Досвід розробки та застосування приладо-технологічних САПР в мікроелектроніці”. - 2009. - С. 536.
12. Гуд (Карамышева) А.Ю. Информационные технологии автоматизации решения задач классификации методов прогнозирования в физических системах / А.Ю. Гуд (Карамышева), Б.В. Шамша // Материалы VIII конференции по физике высоких энергий, ядерной физике и ускорителям. - 2010. - С. 62-63.
Размещено на Allbest.ru
Подобные документы
Часовий ряд як сукупність значень будь-якого показника за декілька послідовних моментів або періодів часу. Знайомство з методами для прогнозування часового ряду за допомогою штучних нейронних мереж. Розгляд головних задач дослідження часового ряду.
контрольная работа [1,1 M], добавлен 14.09.2014Дослідження динамічних рядів методом найменших квадратів та ковзаючого середнього. Опис логічної структури програми. Стандартні методи та елементи середовища програмування Borland Delphi 2007. Опис функцій складових частин програми і зв'язків між ними.
курсовая работа [135,3 K], добавлен 01.04.2016Технологія візуального проектування. Аналітичне розв’язання задачі в загальному вигляді. Програмування в консольному режимі. Сценарій розв’язання задачі в Delphi та блок-схема алгоритму. Програмний код додатку та опис інтерфейсу з екранними копіями.
курсовая работа [2,4 M], добавлен 22.06.2009Електронні підручники як засіб впровадження інформаційних технологій у навчальний процес: основні поняття, вимоги. Створення електронного підручника: особливості мови HTML, текст, гіперпосилання; практичні заняття з теорії числових і функціональних рядів.
дипломная работа [1,8 M], добавлен 23.08.2012Дослідження методу сплайнів для вирішення задачі інтерполяції. Вибір методів технічних та інструментальних засобів вирішення задачі, їх алгоритми. Розробка логічної частини програми, результати обчислень. Розв’язання задачі в пакетах прикладних програм.
курсовая работа [278,5 K], добавлен 03.12.2009Огляд та аналіз методів розв’язання системи диференціальних рівнянь та вибір методів рішення. Алгоритми методів Ейлера. Вибір методу рішення задачі Коші. Рішення диференціальних рівнянь. Отримання практичних навиків програмування на мові Паскаль.
курсовая работа [174,3 K], добавлен 06.03.2010Розв’язання нелінійних алгебраїчних рівнянь методом дихотомії. Вирішення задачі знаходження коренів рівняння. Розробка алгоритму розв’язання задачі і тестового прикладу. Блок-схеми алгоритмів основних функцій. Інструкція користувача програмою мовою С++.
курсовая работа [2,0 M], добавлен 24.09.2010Лінійне програмування як один з найбільш популярних апаратів математичної теорії оптимального управління рішень. Опис існуючих методів розв’язку задач лінійного програмування. Завдання, основні принципи, алгоритми і головна мета лінійного програмування.
курсовая работа [363,8 K], добавлен 03.12.2009В роботі розглянуто наближені методи розв’язку нелінійних рівнянь. Для вказаних методів складено блок-схеми та написано програму, за якою розв’язується задане рівняння. Аналіз як самого рівняння і методів його розв’язання так і результатів обрахунку.
курсовая работа [302,8 K], добавлен 03.12.2009Метод розв’язків рівнянь більш високих порядків. Вибір методу розв'язання задачі Коші. Методи розв'язання крайових задач розглядаються на прикладі звичайного диференціального рівняння другого порядку. Вибір методу інструментальних засобів вирішення задач.
курсовая работа [132,0 K], добавлен 03.12.2009