Определение оптимальной размерности по временному ряду цен на финансовых рынках

Нелинейные методы анализа временных рядов. Динамические системы, пространство состояний, орбиты и аттракторы систем. Вложение по Такенсу. Оценка временного лага. Функция взаимной информации. Ближайшие и средние ложные соседи. Регрессия опорных векторов.

Рубрика Экономико-математическое моделирование
Вид дипломная работа
Язык русский
Дата добавления 10.12.2019
Размер файла 5,2 M

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

2

Размещено на http://www.allbest.ru/

Правительство Российской Федерации

Федеральное государственное автономное образовательное учреждение высшего образования

"Национальный исследовательский университет "Высшая школа экономики"

Факультет мировой экономики и мировой политики

Образовательная программа ________Мировая экономика____

Выпускная квалификационная работа

На тему: Определение оптимальной размерности по временному ряду цен на финансовых рынках

Студент группы № 151

Темчук Ярослав Игоревич

(Ф.И.О.)

Научный руководитель

к.э.н. Камротов Михаил Владимирович

(должность, звание, Ф.И.О.)

Москва, 2019 г.

Аннотация

временной ряд регрессия лаг

С начала 21-ого века применение нелинейных методов анализа временных рядов можно найти в широком спектре таких научных областей, как инженерия, биология, социальные науки и т.д. Тем не менее, малое количество работ в области преобразования пространства состояний финансовых временных рядов может быть найдено на сегодняшний день, как правило, из-за строгих требований к данным как, например, размер периода выборки, равноудаленные наблюдения, отсутствие пропущенных данных и т.д. Это исследование направлено на применение разработанных и широко используемых в других областях науки методов вложенных координат для анализа временных рядов валютных курсов с использованием базовых алгоритмов машинного обучения в качестве модели прогнозирования. Исследование будет основано на высококачественных данных, взятых с базы данных Interactive Brokers. Таким образом, данное исследование несет в себе цель изучить возможности применения метода вложенных координат для финансовых временных рядов, которое впоследствии может оказаться полезным для специалистов в области автоматизированной торговли иностранной валютой.

Ключевые слова: валютные курсы, нелинейный анализ, вложенные координаты

Оглавление

1 Вступление5

1.1 Предпосылка 5

1.2 Обзор литературы6

1.3 Методология9

1.4 Ожидаемые результаты10

21. Теоретическая часть12

21.1 Нелинейные методы анализа временных рядов 12

21.2 Динамические системы, пространство состояний, орбиты и аттракторы систем 12

21.3 Вложение по Такенсу 14

21.4 Оценка временного лага 17

21.4.1 Функция автокорреляции 17

21.4.2 Функция взаимной информации 19

21.5 Оценка количества измерений 20

21.5.1 Ближайшие ложные соседи 21

12.5.2 Средние ложные соседи 23

12.6 Предсказание значений во вложенном пространстве 24

21.6.1 Ближайшие соседи 24

12.6.2 Регрессия опорных векторов 26

12.7 Оценка точности предсказаний 29

3 2. Синтетические примеры31

32.1 Синтетический пример анализа методом вложенных координат 31

23.2 Аттрактор Рёсслера 31

32.2.1 Оценка временного лага 33

32.2.2 Оценка количества измерений 34

32.2.3 Вложение и предсказание 35

43. Финансовые временные ряды37

43.1 Метод вложенных координат на реальных финансовых данных 37

34.2 Оценка временного лага 38

34.3 Оценка количества измерений 38

34.4 Оптимизация свободных параметров модели вложенных координат 39

34.5 Вложение и предсказание 41

34.6 Торговая стратегия 44

5 Заключение47

Список литературы

49

Глава 1

Вступление

Предпосылка

При попытке структурированно описать природные, социальные или финансовые явления ученые обычно сталкиваются с низкой точностью прогнозных значений, используя стандартные подходы анализа данных, которые зачастую предполагают стационарность наблюдаемого процесса (Kantz & Schreiber, 2004). Исходя из этого, с 1990-ых годов просматривается возрастающий интерес к разработке моделей нелинейного анализа, способных находить и описывать закономерности поведения динамических систем.

Основы для этого подхода были заложены Паккардом в 1980 и вскоре после этого формализованы Такенсом, который предложил реконструировать полную динамику сложной нелинейной системы из единого временного ряда, используя метод вложенных координат (Packard, 1980; Takens, 1981). Основываясь на этой концепции, детерминированный хаос стал популярной областью исследований, где ученые пытаются предсказать будущее поведение и в некоторых случаях даже реконструировать уравнение движения хаоса в естественных или лабораторных системах.

Фактически многие исследования сосредоточены на оценке двух самых необходимых параметров любой модели вложенных координат: количество измерений в преобразованном пространстве и временной лаг между наблюдениями, которые составляют координаты в этом пространстве (Bradley & Kantz, 2015; Bradley, Garland, & James, 2014). Однако корректная оценка этих параметров может оказаться нетривиальной для исследователей: требуется надлежащий уровень вычислений, внимание к требованиям по структуре данных, достаточные машинные мощности и толковая интерпретация результатов модели (Bradley & Garland, 2015). Кроме того, при работе с платформами для торговли иностранной валютой в режиме реального времени реализация метода вложенных координат для моделирования цельной динамики данных становится трудоемкой и, как правило, требует экспертной человеческой интерпретации, что противоречит идее неконтролируемых алгоритмических решений. Таким образом, представляется целесообразным оценить, какой из известных методов оценки параметров способен вывести наиболее оптимизированную прогнозную модель с точки зрения точности и вычислительной эффективности, особенно когда система предполагает работу в ускоренных масштабах времени.

В этой работе мы приводим сравнительный анализ различных моделей вложенных координат, оценивая их точность прогнозирования на временных рядах EURUSD. В частности, отбор параметров временного лага и количества измерений модели вложенных координат будет происходить как с помощью описанных в литературе эвристик, так и на основе оптимизации свободных параметров путем вычисления средней абсолютной масштабированной ошибки прогнозных значений, полученных традиционным и модифицированным методом Лоренца (Moore & Little, 2014), также широко известным как метод ближайших соседей.

Таким образом, в этом исследовании мы стараемся определить необходимую комплексность метода вложенных координат, что может оказаться применимым в области автоматизированных алгоритмов прогнозирования в режиме реального времени.

Обзор литературы

Учитывая множество макроэкономических и политических факторов, которые могут повлиять на дальнейший курс валютных курсов, представляется сложным найти какие-либо линейные модели для прогнозирования будущих значений на основе периодов в прошлом. Таким образом, целью данного исследования является изучение нелинейного аспекта временных рядов валютных курсов, основанном на предположении, что наблюдаемый процесс действительно порождается динамической системой. Для достижения этой цели в данном исследовании используется метод вложенных координат, который дает возможность описывать модели движения в системах более высокого измерения. На основе алгоритмов машинного обучения, используемых для оценки прогнозных значений по преобразованным данным валютного курса, мы изучим, как лучше выбрать параметры временного лага и количества измерений.

В литературе можно найти ряд исследований, в которых уделяется внимание методам нахождения свободных параметров для модели вложенных координат на основе временных рядов (Bradley & Kantz, 2015; Garland & Bradley, 2015; Kantz & Schreiber, 2004). Например, Брэдли и Кантц дали глубокий обзор существующих подходов к проведению нелинейного анализа временных рядов (Bradley & Kantz, 2015). В их исследовании они описывают не только способы оценки свободных параметров, но и инвариантные характеристики, которые следует учитывать при рассмотрении динамической системы. Обычно в любой модели вложенных координат есть два свободных параметра: количество измерений в преобразованном пространстве и временной лаг между наблюдениями, которые составляют координаты в этом пространстве. Среди возможных способов оценки параметров авторы отмечают использование «первого нуля автокорреляционной функции временного ряда» [13, стр. 4], что дает нам необходимый временной лаг, чтобы максимизировать линейную независимость вложенного вектора. Однако построение автокорреляционных функций требует предварительной обработки данных, чтобы соблюдалось условие стационарности, что может повлиять на точность прогнозной модели. Тем не менее, еще в 1986 Фразер и Свинни ввели альтернативное решение для устранения эффектов предварительной обработки данных путем использования первого локального минимума средней взаимной информации (Fraser & Swinney, 1986). С точки зрения оценки количества измерений в преобразованном пространстве Кеннел, Браун и Абарбанел в 1992 обнаружили, что метод ближайших ложных соседей (FNN) эффективен для определения минимального измерения, при котором динамика системы должным образом разворачивается (Kennel, Brown & Abarbanel, 1992). Хотя у методов на основе FNN есть свой недостаток: зачастую в финансовых временных рядах присутствует зашумленность наблюдений, которая может нарушать отношения между соседями, влияя на выбор результирующего измерения.

Стоить заметить, что вышеупомянутые исследования преимущественно включают синтетические многомерные хаотические наборы данных, как аттрактор Лоернца, Рёсслера и др., чтобы продемонстрировать предсказательную силу предлагаемой модели вложенных координат, однако синтетические динамические системы имеют мало общего с реальной динамикой финансовых временных рядов.

Хотя существует достаточное количество научных работ, исследующих различные стратегии нахождения свободных параметров, лишь немногие из них предоставляют спектр методологий прогнозирования, которые можно затем применять к вложенным данным. Бонтемпи, Тайеб и Боргне в своей книге рассуждают о применении ряда методов машинного обучения в контексте преобразованных данных в пространстве как альтернативу традиционным линейным статистическим моделям (Bontempi, Taieb & Borgne, 2012). В первую очередь авторы описывают стратегии для локальных задач обучения, такие как ближайшие соседи, которые используются для составления прогнозов на один шаг вперед без какого-либо предварительного знания о процессе. Литтл и Мур представили полезные модификации для модели ближайшего соседа (Moore & Little, 2014), которые также будут реализованы в нашем исследовании.

Исходя из обзора литературы становится очевидным, что представляется интересным реализовать широко используемую в экспериментальных дисциплинах модель вложенных координат на финансовых временных рядах, поскольку на данный момент было проведено малое количество исследований по применению нелинейных моделей анализа валютных курсов. Таким образом, целью данного исследования является изучение потенциального использования метода вложенных координат на исторических данных EURUSD.

Методология

Целью данного исследования является проанализировать оптимальную структуру модели прогнозирования финансовых временных рядов с помощью модели вложенных координат с точки зрения точности и требуемой вычислительной мощности. Такие аспекты, как теория информации, метрические и логические классификаторы машинного обучения будут использованы для калибровки свободных параметров модели. Поскольку модели прогнозирования на основе вложенных координат являются очень чувствительными к исходным данным (Bradley & Kantz, 2015), наше исследование будет проводиться на основе качественных данных из базы Interactive Brokers с минимальными предварительными изменениями, чтобы выделить только влияние вложенных векторов на параметры модели.

Среди причин для реализации модели вложенных координат является тот факт, что Гарланд, Джеймс и Брэдли уже использовали этот подход в своей исследовательской работе (Bradley, Garland, & James, 2014) и обнаружили, что модель не только обеспечивает надежную основу для обнаружения закономерностей в хаотических динамических системах, но и позволяет оценить количественную меру предсказуемости временных рядов, что помогает специалистам заранее определить являются ли исходные данные чрезмерно сложными для составления прогнозов и необходима ли их модификация.

Прежде всего, параметры временного лага и количества измерений будут оценены на обучающей выборке. Первый локальный минимум функции взаимной информации, предложенный Фразером и Суинни (Fraser & Swinney, 1986), будет использоваться для определения необходимого временного лага. Затем мы применим метод, основанный на принципе ближайшего ложного соседа (FNN), чтобы оценить минимальное количество измерений, где развертывается динамика системы.

Затем, начальный набор данных «нарезается» в соответствии с методом, обнаруженным Такенсом (Takens, 1981), используя оцененные свободные параметры временного лага и количества измерений . Наконец, мы применим модифицированную версию метода ближайших соседей для прогнозирования на тестовой выборке. Метрика средней абсолютной масштабированной ошибки будет использована, чтобы оценить или наша модель выдает результаты лучше, чем прогнозирование с помощью случайного блуждания.

Среди ограничений предлагаемого метода анализа можно выделить тот факт, что алгоритм ближайшего соседа является одним из самых простых алгоритмов машинного обучения, который не требует оптимизации на обучающей выборки, поэтому предсказательная сила метода может оказаться слабой для реальных финансовых временных рядов.

Тем не менее, более сложные алгоритмы машинного обучения уязвимы к явлению оверфита, когда модель выводит слишком сложные функции из ограниченного набора данных и не может делать точные прогнозы на тестовой выборке. Чтобы минимизировать эффект оверфита мы разделили исходные данные на тренировочную, валидационную и тестовую выборки, но это еще не гарантирует полного отсутствия эффекта.

Ожидаемые результаты

Мы ожидаем, что это исследование внесет вклад в академическое направление по применениям нелинейных методов анализа реальных хаотических процессов. Принимая во внимание тот факт, что реальные финансовые временные ряды редко используются в изучении динамических систем, это исследование направлено на реализацию модели вложенных координат, а также на оптимизацию свободных параметров модели для минимизации средних абсолютных масштабированных ошибок прогнозных значений.

Чтобы провести всесторонний анализ, мы рассмотрим ключевые характеристики модели вложенных координат - временной лаг и количество измерений , на основе данных по валютному курсу EURUSD. Использовав оценочные свободные параметры, мы преобразуем исходные данные и применим алгоритмы машинного обучения для прогнозирования на один шаг вперед на тестовой выборке.

Наши предварительные результаты могут указывать на три основных тенденции:

1) В отличие от высокоуровневых синтетических данных реальные финансовые временные ряды могут выдавать неоднозначную оценку свободных параметров модели вложенных координат.

2) Свободные параметры модели вложенных координат могут быть оптимизированы более эффективно с помощью «грубой силы» путем минимизации средней абсолютной масштабированной ошибки в некой области значений временных лагов и размерности измерений.

3) Точность предлагаемого метода ближайших соседей может быть ниже, чем у продвинутых алгоритмов машинного обучения, таких как бустинговые градиентные деревья или нейронные сети.

Таким образом, подобная работа может способствовать развитию области автоматизированных моделей торговли иностранной валютой.

Глава 2

1. Теоретическая часть

21.1 Нелинейные методы анализа временных рядов.

Нелинейный анализ временных рядов включает в себя набор методов, которые позволяют извлечь информацию о динамической составляющей рассматриваемого процесса. В целом подобный анализ опирается на метод вложенных координат, основы которого были заложены в 1980 году, когда детерминированный хаос начал набирать популярность в научных кругах и все больше исследовался в естественных и лабораторных системах. С тех пор нелинейный анализ временных рядов стал широко использоваться в различных отраслях науки и техники.

21.2 Динамические системы, пространство состояний, орбиты и аттракторы систем

Методы нелинейного анализа временных рядов в нашем исследовании во многом были мотивированы теорией динамических систем в фазовом пространстве, изложенной Такенсом в его работе (Takens, 1980). Чтобы разобрать метод вложенных координат прежде всего необходимо понимать, что из себя представляют динамические системы.

Определение 1. (Динамическая система) Динамическая система -- это набор детерминированных функций, уравнений или правил, описывающих настоящее состояние в терминах прошлых состояний (Alligood, Sauer, & Yorke, 1996). Отдельное внимание стоит обратить на использование термина детерминированный. Хаотические системы являются подмножеством динамических систем и, следовательно, по определению являются детерминированными. Термин хаотический может вводить в заблуждение, так как за пределами сферы нелинейного анализа он обычно используется для описания систем, не несущих в себе какую-либо упорядоченную структуру. В теории хаоса, однако, этот термин относится к системам, имеющим очень упорядоченную структуру. Хотя хаотическая система может иметь сложное поведение и ее трудно предсказать, она все же детерминирована и полностью упорядочена в соответствии с функциями, уравнениями, правилами и предыдущими состояниями, как упоминалось выше. Тогда динамическую систему можно формально описать как пространство фаз или состояний , временное пространство и эволюционную функцию , для которой .

Определение 2. (Пространство состояний или фазовое пространство) Пространство состояний - это пространство динамических переменных. Состояние задается через , где Если динамические переменные являются дискретными, то пространство называется пространством состояний, в то время как если переменные являются непрерывными, то такое пространство называется фазовым пространством.

Например, одной из наиболее изученных синтетических динамических систем является отображение Эно, которое сопоставляет точке на плоскости новую точку по следующему закону:

Данное отображение имеет двухмерное пространство состояний с динамическими переменными и , два параметра и , которые для классического отображения Эно имеют значения и . Причем для классических значений отображение является хаотическим, в то время как для других может сходиться к периодической орбите.

Определение 3. (Орбита). Орбитой называют траекторию движения хаотической точки в наперед заданной системе пространственных координат.

Эволюционная функция включает в себя траекторию в пространстве возможных состояний системы. Точки, к которым протягивается траектория в пространстве называются аттракторами.

Определение 4. (Хаотический аттрактор) Хаотическим аттрактором называется подмножество пространства состояний динамической системы, к которому все траектории некоторой окрестности стремятся при времени, стремящемуся к бесконечности. Тогда подмножество некой орбиты можно описать следующим образом:

(2.1)

Таким образом, подмножество является аттрактором, если, двигаясь дальше по орбите мы можем бесконечное количество раз вернуться произвольно близко к этому подмножеству.

Временные ряды могут быть проекциями наблюдаемых состояний из динамической системы. Следовательно, многообразие этих динамических систем может содержать полезную информацию для понимания лежащих в основе явлений (Dean & Wellman, 1991). В нашем анализе одно из основных предположений заключается в том, что финансовые временные ряды относятся к динамическим системам.

21.3 Вложение по Такенсу

Метод вложенных координат по Такенсу позволяет восстановить временной ряд в пространство с бульшим количеством измерений, сохраняя при этом топологию исходного множества, порождающего значения временного ряда. Разумеется, реконструкция не будет идентична внутренней динамике, однако может все равно оказаться чрезвычайно полезной, потому что облако значений, полученных после восстановления временного ряда, имеет абсолютно такую же топологию, как и аттрактор динамической системы. Поскольку многие важные свойства динамических систем инварианты относительно диффеоморфизма Диффеоморфизм -- взаимно однозначное и гладкое отображение гладкого многообразия в гладкое многообразие , обратное к которому тоже является гладким., выводы, сделанные из восстановленной динамики, будут также верными для истинной динамики системы.

Теорема вложенных координат по Витни (Whitney, 1936) говорит о том, что все мерные множества могут быть вложены в мерное евклидово пространство. Такенс расширил теорему, предложив, что мерное множество, которое содержит в себе аттрактор , может быть вложено в . Теорема Такенса находит такую функцию , которая отображает мерное множество , где количество измерений во вложенном пространстве может быть .

Таким образом, вложение координат по Такенсу дает возможность получить непрерывное преобразование из исходного многообразия в , где является размерностью вложения, а матрицей траекторий.

Определение 5. (Матрица траекторий) Пусть - временной ряд, а матрица траекторий, состоящая из последовательности наблюдений из пространства состояний с количеством измерений и временным лагом :

(2.2)

Где каждая точка в пространстве представлена рядом в матрице траекторий.

Таким образом, метод вложенных координат по Такенсу имеет два свободных параметра - количество измерений и временной лаг . В оригинальной теореме вложенных координат для свободных параметров должны выполняться следующие требования:

Значение должно быть ненулевым и не быть кратным периоду любой орбиты. Однако на практике, когда используются финитные зашумленные временные ряды, требуется более высокого порядка, чтобы развернуть динамику системы. Например, в случае хаотического аттрактора Рёсслера (подробней в Главе 3) вложение с низким значением временного лага не будет отличаться от линии (См. Рис. 1).

Рис. 1. Вложение хаотической системы Рёсслера для различных значений ф

Стоит отметить, что ненадлежащим образом развернутые вложения топологически не сопряжены с истинной динамикой системы, что затрудняет выбор правильного значения .

Помимо основных требований из оригинальной теоремы вложенных координат в литературе также отмечают, что временной лаг должен быть достаточно большим, чтобы значение несло в себе дополнительную информацию по сравнению с , однако выбор слишком большого значения может привести к тому, что система будет нести в себе память о своем начальном состоянии (Perc, Kodba, & Marhl, 2005).

Количество измерений в восстановленном пространстве должно превышать , где - истинное измерение лежащей в основе динамики. Так как на практике значение редко бывает известным, в литературе можно найти большое количество эвристических методов, чтобы избежать затруднения на этом этапе. Подробнее эти методы будут рассмотрены далее в Главе 12.5.

Наблюдения в выборке для построения вложенных координат должны быть равноудалены друг от друга. Тем не менее, на практике базы данных с идеальным качеством временных рядов встречаются очень редко, поэтому одним из очевидных обходных путей будет интерполяция. Однако в нашей работе мы не будем прибегать к первичным обработкам данных, так как это грозит изучением смеси реальной и интерполированной динамики.

Последнее требование заключается в том, что процесс, порождающий значения в пространстве состояний системы, должен быть гладкой функцией. Так как формальные доказательства представляются невозможными из-за природы данных, бывает затруднительным понять или функция удовлетворяет теоретическим требованиям.

Хотя теоретические требования для оценки временного лага и измерения являются довольно прямолинейными, на практике оценка этих параметров представляет самую главную задачу, так как в литературе нет универсального подхода для их вычисления, которое во многом опирается на природу исходных данных. В последнее несколько десятилетий было разработано множество различных методов для оценки свободных параметров, поэтому мы рассмотрим только несколько примеров из этого набора.

21.4 Оценка временного лага

21.4.1 Функция автокорреляции

В традиционной практике выбор временного лага делают с помощью статистических методов, которые помогают измерить независимость -разделенных наблюдений временного ряда. Например, первый ноль автокорреляционной функции временных рядов возвращает наименьший , который максимизирует линейную независимость вложенных векторов. При этом автокорреляционная функция задается с использованием теоремы Хинчина-Колмогорова:

Где преобразование Фурье функции задается как:

Учитывая комплексное сопряжение:

Подставив и в автокорреляционную функцию, получаем:

(2.3)

Таким образом, автокорреляция задается преобразованием Фурье абсолютного квадрата .

21.4.2 Функция взаимной информации

В качестве альтернативы можно использовать первый локальный минимум средней взаимной информации (Fraser & Swinney, 1986).

Коэффициент взаимной информации представляет собой меру энтропии между двумя случайными величинами. Измеренные зависимости могут быть как линейными, так и нелинейными, что является явным преимуществом для выбора оптимального временного лага. Фразер и Суинни определили зависимость между и с помощью условной энтропии следующим образом:

Где - энтропия Шеннона:

Тогда получаем:

Где - плотность вероятности в момент времени (Shannon & Weaver, 1949).

Функция взаимной информации определяется как комбинация совместных и предельных вероятностей исходов события, увеличивая временной лаг между наблюдениями:

Основываясь на стандартном определении независимости, будет равняться нулю как, следовательно, и сама функция взаимной информации, если векторы будут независимыми. Если же векторы с временным лагом будут становиться все более зависимыми, тогда функция взаимной информации будет стремиться к бесконечности.

Поскольку функция взаимной информации основана на совместных функциях плотности вероятности, она является мерой глобальной зависимости, а не функцией отдельных временных векторов. Таким образом, выбор временного лага, который дает первый локальный минимум функции взаимной информации, обеспечивает независимость компонентов с максимальным количеством новой информации.

Оценка функции взаимной информации зависит от оценки функции плотности вероятности временного ряда с лагом. Общепринятым подходом является использования гистограммных оценок (Dionнsio, 2006), который равномерно взвешивает наблюдения в заданном окне. Если временной ряд содержит скопление наблюдений в заданном окне, гистограмма будет непоследовательно оценивать функции вероятностей. Однако так как одним из требований метода вложенных координат являются равноудаленные исходные данные, нам не придется варьировать размер окна в зависимости от тесноты расположения наблюдений.

21.5 Оценка количества измерений

После выбора значения временного лага , следующим шагом является оценка размера вложения . Как и в случае с временным лагом, бульшее количество измерений не обязательно лучше, так как один зашумленный участок временного ряда может повлиять на точек в измерении , поэтому наиболее безопасный подход взять наименьшее значение , которое выдает топологически правильный результат. Одним из подходов для оценки размера вложения является предложенный Кеннелом метод ближайших ложных соседей (Kennel, Brown & Abarbanel, 1992).

21.5.1 Ближайшие ложные соседи

Если мы вложим временной ряд, например, в два измерения, используя некий временной лаг , мы можем использовать координаты точек данных, чтобы проверить заметно ли изменилось расстояние между ними после вложения. Если расстояние между соседями заметно изменилось, то они называются «ложными». Когда расстояние перестает существенно изменяться при увеличении количества пространств, вложение оставляет форму аттрактора неизменной, что говорит о достаточном измерении для вложения.

В своей статистике Кеннел использует квадрат евклидова расстояния:

Где - -ый ближайший сосед вложенного вектора .

Применив логику, изложенную выше, мы можем перейти от -мерного пространства к -мерному пространству, добавив новое квадратное расстояние между и тем же -ым ближайшим соседом:

Как упоминалось ранее, если одномерный временной ряд уже правильно вложен в измерений, то расстояние между соседями не должно сильно изменяться и будет оставаться в рамках какого-то критерия :

Кеннел предложил в качестве стандартного значения.

Применение этого метода к каждому ближайшему соседу каждого наблюдения приведет к нахождению нескольких или отсутствию ближайших ложных соседей, если вложение было достаточным. Таким образом, мы можем подсчитать количество ближайших ложных соседей, которые не удовлетворяют критерию (2.10) и подсчитать их процентное содержание:

Где - количество вложенных векторов.

Тогда для наименьшего достаточного количества измерений , должно стремиться к нулю.

Тем не менее, для ограниченного числа наблюдений Кеннел заметил, что одного критерия (2.10) может быть недостаточно, поэтому предложил еще второй критерий для нахождения ложных ближайших соседей:

Где - размерность перестроенного аттрактора, которая оценивается как:

Где . В своей работе Кеннел предложил в качестве стандартной статистики.

21.5.2 Средние ложные соседи

Несмотря на относительную простоту применения метода ближайших ложных соседей по Кеннелу, Цао в своей работе (Cao, 1997) заметил, что метод может быть слишком чувствителен к свободным параметрам и при зашумленности данных. В связи с этим Цао предложил свой метод усредненных ложных соседей, который учитывает среднее изменение расстояния между вектором и его ближайшим соседом при увеличении размерности вложения.

Для начала, для каждого вектора находится отношение как:

Где расстояние в отличие от евклидова расстояния в формуле (2.8) рассчитывается с помощью максимальной нормы между векторами, известной также как расстояние Чебышева, что позволяет сократить время вычисления:

Чтобы избежать выбор свободных параметров для критериев (2.10) и (2.12), Цао предложил рассчитывать среднее значение всех как:

Тогда при переходе к -мерному пространству можем вывести следующую переменную:

Цао в своей работе выявил, что значение стабилизируется, когда достигает оптимального значения размерности вложения. Так как для случайного набора данных никогда не стабилизируется, автор посчитал необходимым также отличать детерминистическую хаотическую систему от случайных последовательностей и предложил следующую метрику , которая оценивается как:

Тогда при переходе к -мерному пространству получаем

Так как для случайного набора данных будущие значения никак не связаны с прошлыми значениями, будет единым для любого . В отличие от случайных данных детерминистические системы зависят от размерности , поэтому для них должны существовать значения Таким образом, Цао в своей работе рекомендует считать оба показателя и для определения оптимального .

21.6 Предсказание значений во вложенном пространстве

21.6.1 Ближайшие соседи

Способы прогнозирования в рамках метода вложенных координат имеют долгую и богатую историю в анализе нелинейной динамики. Например, в 1969 году Лоренц предложил свой метод аналогов, который ищет известную траекторию состояния пространства для ближайшего соседа данной точки и принимает путь этого соседа в качестве прогноза (Lorenz, 1969). В контексте статистических подходов для обучения метод известен как метод ближайших соседей. Вместо использования тренировочных выборок для обучения в модели выполняется поиск по прошлым наблюдениям, которые затем используются в качестве предикторов. В прогнозировании временных рядов алгоритм выбирает прошлые последовательности, похожие на текущую, и использует их для точечного прогноза.

Для динамической системы набор векторов в определенный момент времени описывается как , где некая эволюционная функция. Допуская, что отображение в дискретном времени является непрерывным относительно своего аргумента, мы можем предсказать будущее состояние с помощью поиска прошлых состояний наиболее близких к . Если состояние близко к состоянию , то предположение о непрерывности гарантирует, что состояние будет близко к (Moore & Little, 2014).

Для -мерного вложенного пространства простой предикат является средним значением соседствующих векторов:

Где - следующая точка после вложенного вектора , - окрестность радиуса и , а -свободный параметр количества ближайших соседей.

Муур и Литтл в своей работе предложили небольшие модификации для метода ближайших соседей:

В формуле (2.20) предполагается, что прогнозные вектора близки к текущему состоянию . Однако в случае, когда ложные ближайшие вектора попадают в окрестность, это предположение нарушается. Последствия этого эффекта устраняются с помощью использовании медианы вместо среднего в качестве предиката:

Для временных рядов, полученных из детерминированных систем, где динамика системы фиксирована и известна и можно точно оценить значения временного лага и количества измерений , использование минимального радиуса окрестности для выбора прогнозных векторов обеспечивает наиболее точную аппроксимацию к текущему состоянию. Однако если оптимальное измерение для вложения неизвестно, произвольный радиус грозит попаданием ложных ближайших векторов в окрестность. Чтобы решить эту проблему, авторы используют фиксированный радиус окрестности, снижая порядок измерения для вложения для поиска векторов.

21.6.2 Регрессия опорных векторов

Метод опорных векторов является одним из наиболее популярных алгоритмов машинного обучения, который используется для задач линейной и нелинейной классификации и регрессии. В отличие от обычной задачи классификации, где мы пытаемся найти такую разделяющую гиперплоскость, которая приводит к максимально длинному расстоянию между двумя классами, регрессия опорных векторов несет в себе цель уместить как можно больше наблюдений между найденными опорными векторами. Таким образом, нам необходимо найти некую линейную функцию :

Тогда в случае линейно-неразделимой выборки мы приходим к следующей постановке задачи (Vapnik, 1995):

Где так называемые слак параметры, которые вводятся в качестве эвристики, чтобы перейти от линейно разделимых выборок к линейно-неразделимым; некая погрешность, в рамках которой мы позволяем значениям нашей регрессии отклоняться; некая константа, которая отражает чувствительность к отклонениям . Графическую интерпретацию можно увидеть на Рис. 2.

Рис. 2. Регрессия опорных векторов

В литературе (2.22) называют задачей квадратичного программирования с линейными ограничениями-неравенствами, которая решается сведением к двойственной задаче, используя множители Лагранжа (Fletcher, 1989):

Где Лагранжиан с множителями больше нуля.

Также должны соблюдаться необходимые условия седловой точки функции Лагранжа:

Где относится к и .

Подставив (2.24) в (2.23) получаем следующую двойственную задачу:

Тогда решение прямой задачи выражается через решение двойственной:

Таким образом, мы находим искомую функцию в (2.26). Более подробное решение задачи квадратичного программирования (2.22) можно найти в (Smola & Schцlkopf, 2004).

Стоит отметить, что мы можем перейти к нелинейной регрессии опорных векторов путем замены скалярного произведения на нелинейную функцию , чтобы перейти к пространству более высокой размерности.

Приведем пример квадратичного ядра, описанного у Вапника (1995). Пусть , где . Тогда найдем преобразование , при которых . Для этого разложим квадрат скалярного произведения:

Таким образом, . Линейной поверхности в пространстве соответствует квадратичная поверхность в исходном пространстве .

21.7 Оценка точности предсказаний

В качестве численной меры точности предсказания мы вычисляем среднюю абсолютную масштабированную ошибку (MASE) между прогнозными и реальными значениями:

Масштабирование осуществляется с помощью среднего значения прогнозной ошибки случайного блуждания в знаменателе. Таким образом, если значение , то прогнозная ошибка была в среднем меньше, чем ошибка прогнозных значений, полученных с помощью случайного блуждания.

Глава 3

2. Синтетические примеры

32.1 Синтетический пример анализа методом вложенных координат

В этом разделе приводится синтетический пример анализа временных рядов с помощью метода вложенных координат по Такенсу, чтобы дать читателю интуитивное понимание метода, используемого в этой работе. Как уже упоминалось ранее, синтетические данные, полученные из динамических систем, являются детерминированными, поэтому мы сможем точно определить значения временного лага и количества измерений для вложения. В качестве детерминистической хаотической системы мы рассмотрим ранее затрагиваемый аттрактор Рёсслера.

32.2 Аттрактор Рёсслера

Пожалуй, одна из самых популярных хаотических систем была представлена Рёсслером в 1976. Система состоит из трех обычных дифференциальных уравнений:

С постоянными параметрами и начальными значениями . Хаотический аттрактор Рёсслера, используемый в нашем примере изображен на Рис. 3.

Рис. 3. Аттрактор Рёсслера при постоянных a=0.2,b=0.2,c=5.7

Рис. 4. Первые 500 значений из аттрактора Рёсслера

Сгенерировав 10 тыс. значений из системы Рёсслера, мы можем приступить к поиску свободных параметров временного лага и количества измерений для вложения.

32.2.1 Оценка временного лага

Основываясь на методах из главы (2.4), сравним оценки временного лага, полученные с помощью автокорреляционной функции и первого локального минимума функции взаимной информации.

Как видно из Рис. 5, значения временного лага совпадает для первого нуля автокорреляционной функции и первого локального минимума функции взаимной информации.

Рис. 5. Оценка временного лага ф для аттрактора Рёсслера

Временной ряд с лагом из аттрактора Рёсслера при значении изображен на Рис. 6.

Рис. 6. Аттрактор Рёсслера с временным лагом ф=14

32.2.2 Оценка количества измерений

Оценив временной лаг, можем приступить к оценке размерности вложения . Как уже обсуждалось в главе (2.5), одним из подходов для оценки размерности вложения является метод ближайших ложных соседей по Кеннелу.

Рис. 7. Ближайшие ложные соседи для аттрактора Рёсслера при лаге ф=14

Судя по количеству ближайших ложных соседей для набора измерений из Рис. 7, оптимальной размерностью для вложения является , где процент ложных соседей стремится к нулю для обоих критериев (см. формулы (2.10) и (2.12)).

Тем не менее, в соответствии с вторым требованием классической теоремы вложенных координат (см. Глава 21.3) оптимальная размерность вложения должна быть больше , где - истинное измерение лежащей в основе динамики, которое для аттрактора Рёсслера равно двум. Следовательно, оптимальная размерность вложения должна быть .

Чтобы подтвердить это, применим алгоритм среднего ложного соседа и оценим оптимальное измерение по критерию (2.17).

Рис. 8. Средние ложные соседи для аттрактора Рёсслера при лаге ф=14

Из Рис. 8 можем заметить, что значение стабилизируется в при . Также значение для многих значений не равно единице, что говорит нам о принадлежности данных к детерминистической системе.

23.2.3 Вложение и предсказание

Зная временной лаг и количество измерений , мы можем вложить исходные данные по Такенсу на основе формулы (2.2). Так как данные принадлежат к детерминистической системе, в качестве входных данных для модели подаются вложенные вектора , а на выходе мы должны получить предсказание последующего вектора .

Стоит отметить, что используемый классификатор ближайшего соседа немного отличается от модели, представленной в Главе 12.6.1: чтобы избежать выбор радиуса окрестности для ближайших соседей, на практике, как правило, используется поиск по дереву решений. В частности, в нашей работе мы используем реализацию BallTree из библиотеки scikit-learn для Python. В отличие от привычного KDtree, выбранный метод хорошо справляется с задачей поиска ближайших соседей при увеличении размерности пространства (Kibriya & Frank, 2007; Kumar, Zhang, & Nayar, 2008).

В качестве тренировочной выборки было использовано 80% всех наблюдений, а оставшаяся часть использовалась в качестве тестовой. Полученные прогнозные значения для каждого из 6 вложенных измерений на первых 50 тестовых значений можно увидеть на Рис. 9.

Рис. 9

Как видно из Табл. 1, метод ближайшего соседа на тестовой выборке достигает , где - количество ближайших соседей, равное трем. Таким образом, прогнозные результаты выбранного метода превосходят случайное блуждание в среднем в раз.

Таблица 1. Значение MASE на тестовой выборке аттрактора Рёсслера

3.

Глава 4

Финансовые временные ряды

43.1 Метод вложенных координат на реальных финансовых данных

В этом разделе мы применим метод вложенных координат на реальных финансовых временных рядах. В качестве данных мы рассмотрим 30-минутные наблюдения валютного курса EURUSD из базы данных Interactive Brokers. Набор данных состоит всего из 52.5 тыс. наблюдений курса EURUSD в промежуток между 2015-01-01 до 2019-03-25. В качестве временного ряда мы будем использовать цены . Используемые данные можно увидеть на Рис. 10.

Рис. 10. Временной ряд EURUSD

Исходная выборка была поделена на три сета с пропорциями, указанными в Табл. 2.

Таблица 2. Исходные сеты данных EURUSD

Выборка

Пропорция

Длина выборки (кол-во точек)

Обучающая

60%

31 528

Валидационная

20%

10 510

Тестовая

20%

10  510

Таким образом, обучающая выборка будет использоваться для обучения модели, валидационная выборка для оптимизации свободных параметров модели вложенных координат и параметров классификатора, и тестовая выборка для окончательной имплементации модели.

43.2 Оценка временного лага

Для начала нам необходимо оценить параметр временного лага . Для этого рассчитаем первый локальный минимум функции взаимной информации (2.4.2) на тренировочной выборке.

Рис. 11. Оценка временного лага ф для EURUSD

Исходя из Рис. 11, первый локальный минимум функции взаимной информации приходится на временной лаг . Имея значение временного лага, мы можем приступить к оценке размерности вложения.

43.3 Оценка количества измерений

Так как в Главе 32.2.2 метод средних ближайших соседей (2.5.2) выдал более точную оценку размерности, используем его для оценки размерности вложения временного ряда EURUSD.

Рис. 12. Средние ложные соседи для EURUSD при лаге ф=138

Как видно из Рис. 12, критерий не стабилизировался для набора значений размерности вложения . В связи с этим имеет смысл оптимизировать значения свободных параметров и путем минимизации значения на валидационной выборке.

43.4 Оптимизация свободных параметров модели вложенных координат

Для выбора оптимальных значений параметров модели мы оценили значения на валидационной выборке для следующего набора значений временного лага и количества измерений :

Стоит отметить, что для получения более достоверных значений мы использовали скользящий контроль, реализованный в классе TimeSeriesSplit в библиотеке scikit-learn для Python. Данные из наших исходных тренировочных и валидационных сетов делятся на частей, затем на частях производится обучение, а на оставшихся данных тестирование. Процедура повторяется раз, как это изображено на Рис. 13.

Рис. 13. Скользящий контроль при k=4

Таким образом, исходные данные используются более равномерно, что очень помогает сократить долю оверфита на временных рядах.

Минимальные показатели для всех значений представлены в Табл. 3. В таблице также представлена статистика , которая показывает процент угаданных направлений предсказуемых значений.

Таблица 3. Минимальные значения MASE для значений d ? на валидационной выборке EURUSD

Можно заметить, что для всех значений минимальный приходится на временной лаг . В литературе часто предполагается, что финансовые временные ряды являются мартингалами, т. е. только последнее наблюдение влияет на текущую цену (Arlt & Arltovб, 2001). Математически это можно выразить как:

Полагается, что все изменения цен являются линейно независимыми. Другой способ выразить это:

Где разность мартингала и обычно предполагается .

В качестве оптимальной размерности вложения мы будем рассматривать , так как при чуть худшем значении по сравнению с , мы получаем заметное преимущество в , что может оказаться полезным для разработки торговой стратегии.

Тем не менее, результаты показывают, что прогнозные значения на валидационной выборке уступают случайному блужданию в среднем в раз. В последующей главе мы постараемся улучшить качество нашей прогнозной модели.

43.5 Вложение и предсказание

Используя параметры временного лага и размерности вложения , мы можем вложить исходные данные по Такенсу на основе формулы (2.2). Можно заметить, что при вложенные вектора напоминают по структуре Ганкелеву матрицу.

В качестве примера рассмотрим случайный вектор цен :

Тогда при и получаем два вложенных вектора :

;

Как уже упоминалось, в рамках нашей модели в качестве признака подается вектор для предсказания последующего вектора , однако так как часть элементов вектора уже присутствует в векторе , нам необязательно прогнозировать весь вектор, что увеличивает прогнозную точность модели. Результаты модели ближайших соседей на валидационной выборке изображены на Рис. 134.

Рис. 14. Прогнозные значения ближайших соседей (k=3) на валидационной выборке


Подобные документы

  • Теоретические выкладки в области теории хаоса. Методы, которые используются в математике, для прогнозирования стохастических рядов. Анализ финансовых рядов и рядов Twitter, связь между сентиметными графиками и поведением временного финансового ряда.

    курсовая работа [388,9 K], добавлен 01.07.2017

  • Основные элементы эконометрического анализа временных рядов. Задачи анализа и их первоначальная обработка. Решение задач кратко- и среднесрочного прогноза значений временного ряда. Методы нахождения параметров уравнения тренда. Метод наименьших квадратов.

    контрольная работа [37,6 K], добавлен 03.06.2009

  • Классические подходы к анализу финансовых рынков, алгоритмы машинного обучения. Модель ансамблей классификационных деревьев для прогнозирования динамики финансовых временных рядов. Выбор алгоритма для анализа данных. Практическая реализация модели.

    дипломная работа [1,5 M], добавлен 21.09.2016

  • Статистические методы анализа одномерных временных рядов, решение задач по анализу и прогнозированию, построение графика исследуемого показателя. Критерии выявления компонент рядов, проверка гипотезы о случайности ряда и значения стандартных ошибок.

    контрольная работа [325,2 K], добавлен 13.08.2010

  • Анализ временных рядов с помощью статистического пакета "Minitab". Механизм изменения уровней ряда. Trend Analysis – анализ линии тренда с аппроксимирующими кривыми (линейная, квадратическая, экспоненциальная, логистическая). Декомпозиция временного ряда.

    методичка [1,2 M], добавлен 21.01.2011

  • Временные ряды и их характеристики. Факторы, влияющие на значения временного ряда. Тренд и сезонные составляющие. Декомпозиция временных рядов. Метод экспоненциального сглаживания. Построение регрессионной модели. Числовые характеристики переменных.

    контрольная работа [1,6 M], добавлен 18.06.2012

  • Теория и анализ временных рядов. Построение линии тренда и прогнозирование развития случайного процесса на основе временного ряда. Сглаживание временного ряда, задача выделения тренда, определение вида тенденции. Выделение тригонометрической составляющей.

    курсовая работа [722,6 K], добавлен 09.07.2019

  • Влияние девальвации национальной валюты на цены активов и процентных ставок на фондовый рынок. Анализ отраслевых взаимосвязей и закономерностей в динамике биржевых индикаторов и множества других временных рядов. Оценка моделей методом "rolling window".

    дипломная работа [1,7 M], добавлен 06.11.2015

  • Структурные компоненты детерминированной составляющей. Основная цель статистического анализа временных рядов. Экстраполяционное прогнозирование экономических процессов. Выявление аномальных наблюдений, а также построение моделей временных рядов.

    курсовая работа [126,0 K], добавлен 11.03.2014

  • Двумерные автономные динамические системы. Классификация состояний равновесия динамических систем второго порядка. Определение автономной системы дифференциальных уравнений и матрицы линеаризации системы. Фазовый портрет системы Лотки–Вольтерра.

    лабораторная работа [1,1 M], добавлен 22.12.2012

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.