Количественный рекуррентный анализ в обнаружении экстремальных событий в социальных сетях

Рекуррентная диаграмма - метод нелинейного анализа данных в виде визуализации квадратной матрицы, в которой элементы соответствуют тем временам, когда состояние динамической системы повторяется. Анализ траектории фазового пространства системы Лоренца.

Рубрика Программирование, компьютеры и кибернетика
Вид дипломная работа
Язык русский
Дата добавления 10.12.2019
Размер файла 4,1 M

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru

Размещено на http://www.allbest.ru

Введение

Экстремальные события наблюдаются во множестве природных и инженерных систем. Примеры включают океанические волны-убийцы [6], экстремальные погодные условия [39], землетрясения и перегрузки в электрических сетях [5]. Эти события связаны с резкими изменениями в состоянии системы и часто вызывают неблагоприятные экологические и финансовые последствия. Таким образом, прогнозирование и смягчение экстремальных событий крайне желательны.

Есть несколько нерешенных проблем в борьбе с экстремальными событиями. Эти события часто возникают спонтанно, с незначительными или без видимых признаков раннего предупреждения. Это делает их раннее предсказание на основе прямых наблюдений особенно трудной задачей [42]. В определенных задачах, таких как землетрясения, надежные математические модели, способные предсказывать экстремальные события, пока недоступны [2].

В других областях, таких как прогнозирование погоды, где имеются более продвинутые модели, точные прогнозы требуют детального знания текущего состояния системы, которое обычно недоступно. Частичное знание текущего состояния вместе с хаотической природой системы приводит к неопределенности в будущих предсказаниях. Эти неопределенности особенно значимы во время возникновения экстремальных событий.

Кроме того, модели сложных систем обычно настраиваются с использованием методов ассимиляции данных. Это включает в себя выбор параметров модели, чтобы ее прогнозы соответствовали существующим эмпирическим данным. Однако эффективность ассимиляции данных ограничена, когда речь идет о редких экстремальных событиях, данных на которые не столь много.

Эти проблемы моделирования и прогнозирования экстремальных событий остаются в значительной степени нерешенными. Именно с целью обнаружения подобных событий за счёт рекуррентного анализа и проводится данное исследование.

Все определения, которые понадобятся по ходу исследования, будут рассмотрены в теоретическом разделе данной работы. В данном же подразделе стоит остановиться лишь на тех определениях, которые позволят лучше раскрыть саму тему.

Во-первых, одно из определений для количественного рекуррентного анализа (recurrence quantification analysis, RQA) гласит, что это метод анализа данных, который определяет количество и продолжительность повторений динамической системы, представленной ее траекторией фазового пространства. То есть это один из способов исследования данных, основанный на траектории системы в фазовом пространстве.

Во-вторых, рассмотрим определение для экстремального события, по которому это событие во времени, характеризующееся резким изменением в состоянии системы.

Таким образом, в работе будут исследованы данные из социальных сетей с помощью данного метода анализа для обнаружения событий, при которых состояние системы подвержено резкому изменению.

С учётом тематики работы и вышеуказанных определений становится ясна область проведения исследования, а именно работа с данными, динамическими системами. Исходя из всего этого можно вывести и цель, которую будет преследовать данная работа.

Цель исследования - проведение рекуррентного количественного анализа в социальных сетях для обнаружения экстремальных событий.

Для выполнения данной цели были поставлены следующие задачи:

1. Изучить RQA и инструменты текстового анализа

2. Получить данные из социальных сетей

3. Провести текстового анализа данных

4. Провести анализ рекуррентных диаграмм

5. Применить RQA на получившихся данных

6. Обнаружить экстремальные события

Существует несколько проблем, с которыми приходится столкнуться при прогнозировании или предсказании поведения системы, а именно:

1. Реально существующие системы нелинейны, что усложняет работу с ними, а также уменьшает количество методов, применимых для анализа таких систем.

2. Из предыдущего пункта вытекает и другая проблема. Большинство современных методов дают результаты для упрощённых или идеализированных моделей, что сильно сказывается на точности таких исследований.

3. Многие методы анализа требуют стационарных рядов данных, что требует либо преобразования нестационарных данных, либо отказ от работы с ними.

4. В качестве заключительной проблемы стоит отметить необходимость в длинных рядах данных, поскольку разные методики отталкиваются от существующих данных, тем самым требуя больше информации для точности прогнозов.

И рассматриваемый в данной работе метод, а именно рекуррентный количественный анализ позволяет обойти указанные проблемы, поскольку этот довольно молодой подход к анализу систем не требует ни стационарных, ни длинных временных рядов. Кроме того, он позволяет визуализировать многомерные системы и работать с ними, что в итоге положительно сказывается на точности анализа.

Рекуррентные диаграммы помогают определить характер процесса, происходящего в системе, наличие и влияние шума, дрейфа, повторяющихся и затухающих состояний, возникновение экстремальных событий, а также присутствие циклов или периодов. С помощью количественного анализа на диаграммах можно отобразить несколько мер на основе плотности точек, диагоналей и вертикальных (горизонтальных) линий. Стоит отметить, что пока не существует удовлетворительной теория применения рекуррентных диаграмм и их количественных показателей. Благодаря чему данный метод сам по себе является областью для исследований.

В последние годы всё больше исследователей становятся заинтересованы в данном методе и стараются применить его на практике, но во-первых, практически все статьи и работы публикуются в англоязычных журналах, а во-вторых, практически все они связаны с поиском экстремальных событий (экономических пузырей) в финансовом секторе, хотя возможности для применения данного подхода куда шире.

Объектом данного исследования является рекуррентный количественный анализ.

А предмет исследования - применение рекуррентного количественного анализа для обнаружения экстремальных событий.

Рассуждая о практическом применении данного исследования, стоит разбить его на две составляющие (именно так и будут разбиты главы этой работы): теоретическая часть и практическая.

Как уже было сказано, в данный момент не так много работ и статей по применению данного метода анализа вообще и в русскоязычном научном обществе в частности. А помимо этого, и область, к которой будет применён рекуррентный количественный анализ, отличается от часто освещаемой в журналах и научных статьях. Таким образом, сами теоретические наработки данной работы могут стать фундаментом для будущих исследований.

Практическая область применения позволит продемонстрировать возможности данного метода не только в теории, но и на практике, тем самым расширив возможности для предсказания экстремальных событий с числовых до текстовых данных.

1. Теория рекуррентного анализа

Хаотические явления, как временные, так и пространственные, повсеместно распространены в физической, химической и биологической областях и были объектом интенсивных исследований в последние десятилетия. Это необычайное усилие породило широкий спектр подходов, основанных на теории нелинейных систем и бифуркациях. По сути, можно разделить хаос на две категории: изменяющийся во времени и пространственно-временное изменение распределенных систем, где подобные системы демонстрируют спонтанное появление пространственных структур, таких как структуры Тьюринга, бегущие и спиральные волны и турбулентность [43] (пример на рисунке 1).

Рисунок 1. Структуры Тьюринга

В случае временной эволюции хаотических систем, когда модель исследуемой системы известна, методы, которые основаны на нелинейном анализе и теории бифуркаций, позволяют надлежащим образом охарактеризовать нелинейные явления. С другой стороны, когда можно записать только временное изменение состояния системы, мощным подходом является анализ временных рядов с точки зрения динамических систем. Этот подход разработан в рамках анализа нелинейных временных рядов и состоит в возможности реконструкции траектории фазового пространства, исходя из имеющихся наблюдений [17].

Имея дело с пространственно-распределенными системами, некоторые авторы [11] показали, что критическим условием для формирования паттерна является локальное самоусиление (эффект активации на ближнем расстоянии) и торможение на большом расстоянии (истощение, распространяющееся на более широкий диапазон). Например, в случае биологических паттернов подход к моделированию крепко связан с наличием многомасштабных явлений. В этом случае большинство моделей описывается системой дифференциальных уравнений в частных производных, учитывающих реакции и диффузионные процессы. Такие уравнения широко изучены и, хотя аналитические решения не всегда легко доступны, механизмы формирования паттернов хорошо известны с математической точки зрения.

Однако при изучении неизвестной динамической пространственно-временной системы, из которой доступна только частичная информация, к примеру, имеются наблюдения за одной или несколькими переменными пространственного состояния (или их комбинацией) и доступны несколько видов данных, возникает важная проблема. Подобная проблема восстановления пространственного состояния и идентификации модели пространственно-временной динамической системы была исследована в рамках динамических систем в [13], а метод пространственного прогнозирования был предложен в [24]. В таких случаях приходится сталкиваться с проблемой понимания динамики системы, используя только ограниченное количество данных. Фактически, для реальных систем уравнения, описывающие динамику системы, часто не известны, и проблема формирования и анализа структуры может быть решена путем восстановления информации о базовой динамической системе с помощью набора измерений или доступных данных. В некоторых случаях найти значение некоторых параметров системы путем решения подходящих обратных задач можно путем оценки статистических моделей по данным: например, оценка длины волны и скорости бегущих волн в экологических моделях.

Методология идентификации, анализа и классификации сложных паттернов, таких как тьюринговые и турбулентные паттерны, была предложена в [9]. Метод заключается в расширении рекуррентного графика на двумерное пространство [7] и рекуррентного количественного анализа (RQA) [27], обычно применяемого для изучения нелинейных временных рядов.

В данной работе как раз и будут описаны рекуррентные диаграммы, а также интерпретированы меры рекуррентного количественного анализа, которые могут помочь в прогнозировании.

Структура данного раздела выглядит следующим образом: пять подразделов, каждый из которых посвящён разным аспектам:

1. Посвящён истории и существующим исследованиям рекуррентного количественного анализа

2. Будут рассмотрены экстремальные события и их свойства

3. В нём рассматриваются инструменты текстового анализа и преобразования текста в удобные для исследования данные

4. В данном подразделе вводятся рекуррентные диаграммы (recurrence plot, RP)

5. В конце рассмотрим возможности применения рекуррентного количественного анализа и его мер для обнаружения экстремальных событий.

В заключении раздела небольшие выводы по теоретической части работы.

Вначале немного истории, а также опишем исследования, связанные с понятием рекуррентности. Технике, известной как рекуррентные диаграммы, уже 32 года. Однако рекуррентность изучалась и использовалась задолго до этого. Календарь Майя - один из примеров, где в качестве основной идеи можно обнаружить принцип повторения. Рекуррентность или повторяемость встречается в самых разных аспектах природы и общественной жизни.

С появлением современной математики в 19 веке было обнаружено фундаментальное свойство консервативных динамических систем - рекуррентность. Пуанкаре сформулировал свой «тезис» в работе, связанной с задачей трёх тел, которая принесла ему приз, спонсируемый королём Швеции Оскаром II. Пуанкаре обнаружил, что «В этом случае, пренебрегая некоторыми исключительными траекториями, возникновение которых бесконечно маловероятно, можно показать, что система повторяется бесконечно много раз так близко, как хотелось бы, к ее начальному состоянию».

Однако ещё более полувека пришлось ожидать до тщательного изучения рекуррентности за счёт численного моделирования и реальных измерений, поскольку до появления мощных компьютеров такие столь сложные исследования были попросту невозможны. В качестве примера можно взять систему Лоренца, которая была одной из первых численных моделей, демонстрирующих рекуррентность и хаотическое поведение [21]. Повторяемость была проанализирована с помощью разных методов:

· отображения Пуанкаре [35], которое является проекцией площади фазового пространства вдоль траектории системы (рисунок 2а).

· графика разделения пространства и времени [36], данный график демонстрирует насколько большим должно быть временное расстояние между точками, чтобы можно было предположить, что они образуют независимые выборки в соответствии с инвариантной мерой (рисунок 2б).

· статистики времени возврата и времени повторения [1].

Рисунок 2. Отображение Пуанкаре (а), график разделения пространства и времени (б)

Постоянный рост вычислительной мощности позволил проводить еще более интенсивные компьютерные исследования, такие как попарное сравнение всех возможных комбинаций пар ряда данных. Это можно сделать с помощью матрицы сходства, являющейся графическим представлением сходства всех парных комбинаций в рассматриваемых рядах данных.

Работа Краскала в 1960-х годах [20] была одной из самых цитируемых работ в области статистики и глубоко затронула многие области исследований от экологии до психологии и экономики. Все эти области казались отдельными физическими науками, поэтому оценка этих работ в физике оставалась ограниченной. Тем не менее, эти авторы глубоко исследовали и использовали этот подход для анализа пространств расстояний, позволяющих непредвзято представлять практически все виды данных без какого-либо ограничения их характеристик. Таким образом, они проложили путь к признанной в настоящее время способности рекуррентных методов справляться с нестационарными, нелинейными и относительно короткими рядами данных.

С увеличением интенсивности применения компьютеров с 1970-ых до 1980-ых разными науками были заново исследованы матрицы подобия, а потому для одного и того же метода имеются разные названия. Спустя несколько лет результаты данных исследований превратились в рекуррентную диаграмму.

Теперь цель состояла в том, чтобы сравнить все возможные состояния, представленные многомерной фазовой траекторией. Если траектория проходит через область в фазовом пространстве, который она прошла ранее, то считаем её повторением. Повторение означает, что текущее состояние как-то похоже на прежнее состояние. Таким образом, рекуррентные диаграммы в действительности не являются чем-то новым. Но Экман с соавторами сразу отметили, что на таких диаграммах можно обнаружить дополнительную важную информацию, к примеру, детерминизм, расхождение и дрейфующее поведение. Они также заявили, что длины структур диагональных линий в рекуррентных диаграммах связаны с положительным показателем Ляпунова.

Используя матрицу подобия в качестве инструмента для визуализации повторений многомерных траекторий фазового пространства, Экман не планировал открыть новое направление в нелинейном анализе данных. Тем не менее, 1987 год считается рождением рекуррентных диаграмм и их количественной оценки как современного инструмента нелинейного анализа данных.

Спустя некоторое время (не позднее 1992 г.) разные авторы независимо друг от друга ввели другой тип представления рекуррентность [29]. Они сравнивали не все возможные временные точки, а только данное время в прошлом и будущем (рисунок 3). Здесь появилось еще одно название: график приближённого возвращения. Такое представление может быть более интуитивным, особенно для начинающих, потому что линейные структуры рекуррентной диаграммы будут параллельны оси X.

Рисунок 3. Рекуррентная диаграмма

Эти первые годы характеризовались довольно редким применением этого метода (рисунок 4). Появление рекуррентных диаграмм в публикациях было достаточно экзотично.

Более того, до этого момента рекуррентные диаграммы были всего лишь инструментом визуализации, что приводило к недостатку, заключающемуся в том, что пользователь должен был обнаруживать и интерпретировать закономерности и структуры, выявленные рекуррентной диаграммой. Низкое разрешение экрана и принтера еще больше усугубило эту проблему. Чтобы преодолеть эту субъективную часть метода, начиная с конца восьмидесятых годов Збилут и Уэббер пытались дать количественную оценку структурам данной диаграммы. Сначала они просто определили плотность точек повторения и изучили гистограмму длин диагональных линий [56,58,60]. В последующие пять лет они ввели известные показатели сложности, основанные на диагональных линиях структур рекуррентных диаграмм, и вместе с тем создали рекуррентный количественный анализ с несколькими мерами:

- процент повторения или частота повторения

- процент детерминизма

- максимальная длина линии и расхождение

- энтропия Шеннона распределения длин линий

Полезность этих мер была продемонстрирована увеличением числа приложений для реальных данных. Однако до 1995 года в публикациях появлялось лишь несколько приложений рекуррентных диаграмм и рекуррентного количественного анализа.

В начале девяностых годов Уэббер предоставляет свободно доступное программное обеспечение (RQA Software), которое может использоваться для вычисления RP и мер RQA. В 1996 году Кононов запустил программу Visual Recurrence Analysis (VRA), которая имеет удобный графический интерфейс и вычислительные усовершенствования. Поэтому это программное обеспечение довольно популярно. Пакет TISEAN, предоставленный немецкими авторами, также был одним из первых пакетов программного обеспечения, способным рассчитывать RP (но без количественного определения, только RP).

Рисунок 4. Количество публикаций по рекуррентному анализу

В качестве следующего этапа развития стоит отметить введение зависимости от времени в RQA. Меры RQA рассчитываются по окнам, перемещаемым вдоль главной диагонали рекуррентной диаграммы. Это позволяет изучать эволюцию мер RQA во времени [57]. Было показано, что при таком подходе можно было бы обнаружить переходы в динамических системах. В этот момент могут быть обнаружены только переходы между регулярной и нерегулярной динамикой (например, переходы порядок-хаос, устойчивость-неустойчивость). В том же году вышла публикация с многообещающим названием «Recurrence plots revisited» [3]. В ней было предложено использовать RP для восстановления движущей силы динамических систем и представлена идею мета-рекуррентных графиков, основанных на суммировании окон и корреляции.

Основная методологическая работа по RP и RQA в течение 1990-х была выполнена группой вокруг Збилута и Уэббера в Чикаго. С середины 1990-х годов научное сообщество все больше и больше осознавало преимущества рекуррентных диаграмм, что демонстрирует постоянно растущее число публикации между 1996 и 2004 годами.

К концу 1990-х годов появились первые теоретические исследования рекуррентных диаграмм, касающиеся их связи с динамическими инвариантами и сохранения топологии. Макгвайр аналитически продемонстрировал, что матрица расстояний как основа RP сохраняет всю информацию для реконструкции ряда данных, лежащих в их основе [28]. Связь между столбцами RP и мерой информации обсуждалась Гао и Цаем [10].

В 1999 году в качестве уточнения для оценки расходимости состояний было предложено перпендикулярная рекуррентная диаграмма [4]. В данном случае повторение определяется с использованием дополнительного условия, которое гласит, что точки повторения должны лежать на плоскости, которая перпендикулярна траектории фазового пространства исходной точки. Изо-направленная рекуррентная диаграмма, введенная в 2002 году, следует в том же направлении [15]. Её дополнительное условие требует, чтобы периодические траектории фазового пространства развивались параллельно, то есть в одном и том же направлении. К сожалению, эти варианты рекуррентных диаграмм не особо популярны, скорее всего, из-за их слишком больших требуемых вычислительных мощностей.

Также в связи с переходом в новое тысячелетие метод рекуррентных диаграмм был распространен и на кросс-рекуррентные диаграммы (cross-recurrence plot, CRP) [25]. Это двумерное расширение проверяет одновременные появления похожих состояний в двух разных системах. Затем, что вполне логично, последовал и кросс-рекуррентный количественный анализ. Этот метод может использоваться для обнаружения детерминированных сигналов и для изучения сложных взаимосвязей между различными системами. В нём были представлены варианты мер RQA, основанные на задержке. Кроме того, кросс-рекуррентные диаграммы оказались довольно иллюстративными для изучения различий или трансформации временных шкал подобных наблюдений.

С появлением CRP появился свободно доступный CRP Toolbox для MATLAB, написанная Марваном. Этот набор инструментов не зависит от платформы и содержит практически все инструменты и меры, связанные с RP. Примечательно, что в это время начало появляться и коммерческое программное обеспечение, которое включает по крайней мере вычисление RP, к примеру, Dataplore (ixellence GmbH, Германия).

С новым тысячелетием в RQA были добавлены дополнительные меры сложности. Марван ввел меры, основанные на вертикальных линейных структурах в RP, которые назвали замиранием и временем захвата. С помощью этих мер удалось обнаружить переходы хаос-хаос.

В то же время в биоинформатике для исследования пространственной структуры биополимеров использовались RP и RQA [12]. На самом деле, это было довольно глубокое изменение в применении данных методов, потому что они уже анализировали не временные ряды, а пространственные ряды или даже пространственные структуры.

В период с 2002 по 2006 год Романо и Тиль опубликовали несколько новаторских статей, связанных с различными аспектами RP. Они теоретически обосновали выбор порога повторяемости для данных с наблюдательным шумом и смогли аналитически описать RP для шума [46]. Они объяснили связь между длинами диагональных линий и динамическими инвариантами [50]. Эта работа привела к дальнейшим исследованиям влияния вложения [23].

В 2004 году было введено реальное многомерное расширение RP, общая рекуррентная диаграмма (joint recurrence plot, JRP) [51]. JRP проверяет одновременное возникновение повторений в разных системах и является подходящим средством для обнаружения общей синхронизации [47]. Романо и соавторы продемонстрировали, как использовать основанную на задержке меру RQA для обнаружения фазовой синхронизации даже для нефазных когерентных генераторов [49]. Этот метод может быть использован для определения направления связи между системами [48].

Как видим, основную часть теоретической и методической работы в начале века выполняла группа из Марвана, Романо и Тиля в Потсдаме. В результате в 2005 году в Потсдаме, Германия (33 участника) был организован первый международный семинар, посвященный исключительно рекуррентным диаграммам.

Работа Потсдамской группы была продолжена Зоу, Нгамгой и Шинкелем, которые работали над теоретическим подходом для рекуррентности квазипериодических систем [52] и для различных типов переходов.

Частота дискретизации колебательных сигналов может иметь важное значение для обнаружения рекуррентности [8]. При определенных условиях в RP могут появляться большие промежутки, где фактически должны быть точки повторения. Этот притворный недостаток действительно может быть полезен для обнаружения незначительных изменений частоты в колебательных сигналах, которые не видны при стандартном спектральном анализе.

Второй международный семинар по RP был организован в 2007 году, на этот раз в Сиене, Италия (44 участника).

В 2008 году Рохде с соавторами обнаружил связь статистических свойств матрицы расстояний с дисперсией и ковариацией (по крайней мере, для случайных процессов) [38]. Кришнан рассматривал RP с совершенно другой точки зрения [19]. Он подчеркнул тот факт, что RP можно рассматривать как матрицу смежности сложной сети, позволяющую проводить топологический анализ сетей или графов с помощью RQA. Этот подход особенно интересен во многих междисциплинарных научных исследованиях.

Последующие работы во многом связаны именно с различными областями применения рекуррентных диаграмм и количественного рекуррентного анализа. Главным образом, в финансовом секторе для прогнозирования экстремальных событий или предсказательных моделей.

Часть темы работы посвящена обнаружению экстремальных событий, а потому стоит остановиться на них чуть подробнее.

Множество динамических систем в природе и технике демонстрируют скачкообразное поведение в виде экстремальных событий. Эти крупные сдвиги имеют значительные последствия и важны для статистического прогнозирования. Экстремальные события количественно определяются с помощью определенных наблюдений над динамическими системами, которые демонстрируют эпизодические всплески со значениями, равными нескольким стандартным отклонениям. Кроме того, существование экстремальных событий по своей природе связано с соответствующей функцией плотности вероятности (probability density function, PDF) наблюдения, которая характеризуется свойствами тяжелого хвоста.

Экстремальные события - это события, встречающиеся не столь часто, но возникает вопрос: любое ли редкое событие является экстремальным? Проведем неформальное различие между ними. Редкое событие, по определению, является получение случайного эксперимента с очень низкой вероятностью. Получение одного и того же числа при броске кубика шесть раз подряд имеет очень низкую вероятность. Однако специального динамического механизма, связанного с его возникновением, не существует. Это результат чистой случайности. Такие редкие события должны быть отделены от более особого понятия экстремальных событий, которые в контексте данной работы будут рассматриваться как редкие события, вызванные динамической нестабильностью. В частности, экстремальные события могут быть вызваны нестабильностью. Такие временные неустойчивости относятся к случаю, когда конечный временной показатель Ляпунова системы становится положительным, но только для определённого временного интервала. В этом смысле экстремальные события являются частным случаем редких событий, и поэтому важно подчеркнуть их особые свойства:

1. Тот факт, что задействован динамический механизм, часто существенно увеличивает интенсивность экстремальных событий по сравнению с редкими событиями, вызванными чисто случайными процессами. Это проявляется в свойствах тяжелого хвоста соответствующего распределения вероятностей.

2. Экстремальные события обычно связаны со сложными хвостами в функции плотности вероятности. Это сложность отражает тот факт, что существует основной динамический механизм, имеющий форму нелинейный перенос энергии, который не может действовать одинаково для всех интенсивностей экстремальных событие. Например, в энергосберегающей системе, такой как нелинейные волны, хотя нестабильности могут привести к экстремальным событиям, они не могут получить сколь угодно большие величины из-за конечной энергии.

3. Экстремальные события часто связаны с определенной временной шкалой, в которой они развиваются. Этот временной масштаб определяется показателем Ляпунова связанной с ним неустойчивости, масштаб времени, связанный с нелинейным переносом энергии. Определив природу нестабильности, можно отслеживать соответствующий показатель Ляпунова и использовать его в качестве предвестника предстоящего экстремального события.

4. С точки зрения анализа, редкие события могут быть эффективно изучены с использованием статистических инструментов. Тем не менее, для экстремальных явлений такой анализ не сможет уловить статистическая сложность, обусловленная наличием нетривиальных динамических явлений. Смешанный анализ с учетом динамики и статистики имеет важное значение для этого случая.

На рисунке 5 представлена типичная система, демонстрирующая экстремальные события из-за внутренней нестабильности. Первый компонент представляет собой стохастический аттрактор или, в более общем случае, набор, в котором состояние системы находится большую часть времени, представленное в коричневой заштрихованной области. Это может быть сформировано из-за постоянных неустойчивостей (хаотическая динамика), стохастических параметров или стохастического возбуждения системы. Второй компонент - область нестабильности, представленная зеленым цветом. Когда динамическая система попадает в эту окрестность, происходит быстрый рост определенных наблюдений, то есть формирование экстремальных явлений, вызванных нелинейными эффектами. Эти большие скачки проявляются в функции плотности вероятности наблюдаемых режимов с тяжелыми хвостами (рисунок). Стоит обратить внимание, что область неустойчивости может иметь конечную протяженность в фазовом пространстве, и это будет отражаться как конечная протяженность тяжелого хвоста.

Рисунок 5. Динамическая система с экстремальным событием

Большое количество динамических систем демонстрирует экстремальные события из-за переходных неустойчивостей, которые случайным образом срабатывают, когда система развивается в своем хаотическом аттракторе. Такой хаотический аттрактор образуется, например, в турбулентных потоках жидкости из-за постоянных неустойчивостей (т.е. положительных показателей Ляпунова) и диссипации. В этом случае возможной причиной формирования экстремальных явлений является случайный запуск ненормальной динамики [34]. В нелинейных волнах мы имеем не хаотический аттрактор, а набор возможных состояний, образованных случайностью, вызванной случайной суперпозицией.

Если рассматривать живой пример, то самым простым типом экстремального события является экономический пузырь, характеризующий скачкообразное изменение цен на акции или другие виды товаров. Nasdaq определяет экономический пузырь как: «Рыночный феномен, характеризующийся скачками цен на активы до уровней, значительно превышающих базовую стоимость этого актива. Пузыри часто трудно обнаружить в реальном времени, потому что есть разногласия по поводу фундаментальной стоимости актива».

Тремя яркими примерами экономического пузыря являются тюльпаномания, Японский финансовый пузырь и стоимость биткоина.

Пузырь тюльпаномании (рисунок 6) 1630-х годов в Голландии может показаться довольно логичным, ведь биоразлагаемые вещества имеют ограниченный период внутренней ценности, однако в период тюльпаномании луковицы тюльпанов продавались по ценам, которые превышали стоимость роскошных домов и в десятки раз превосходили годовой оклад квалифицированного мастера. Согласно историческим данным, с конца 1636 г. до начала 1637 г. цены выросли в 10 раз, а затем в мае 1637 г. упали на 99%.

Рисунок 6. Цены на тюльпаны в 1636-1637 годах

Пузырь 1986 года на рынке недвижимости Японии (рисунок 7). Спад в Японии в 1986 году был обусловлен повышением курса йены на целых 50%, что привело к вступлению Банка Японии в эпоху существенной денежно-кредитной политики, которая, как утверждают многие, сохраняется до сегодняшнего дня. В результате мер по аккомодации Банка Японии рынки были заполнены дешевым финансированием, что привело к трехкратному росту стоимости земли и акций в конце 80-х годов.

Рисунок 7. Индекс Nikkei 225

Пузырь лопнул в начале 90-х. Цены на активы рухнули в 1992 году, Nikkei упал на 50% к августу 1990 года. В то время как инвесторы остались с большими потерями на рынках, рост неработающих кредитов сильно ударил по финансовым институтам, что привело к «потерянному десятилетию» Японии.

И третий пример курс биткоина (рисунок 8). Как хорошо заметно на рисунке после резкого роста цен на данную криптовалюту последовал столь же резкий спад цен.

Рисунок 8. Курс биткоина

Именно из-за подобных экстремальных событий многие исследователи пытаются найти надежные методы прогнозирования их возникновения.

Поскольку работа с социальными сетями подразумевает текстовые данные, то для дальнейшего применения рекуррентного анализа требуется эти данные преобразовать во временной ряд. Именно для этого требуется провести анализ текста и его преобразование.

Анализ текста - это автоматизированный процесс, который позволяет системам извлекать и классифицировать информацию из текста, такую как твиты, электронные письма, заявки в службу поддержки, обзоры продуктов, ответы на опросы и т.д.

Сортировка и анализ данных - это повторяющийся, трудоемкий и дорогостоящий процесс, если выполнять его вручную. Представьте попытку обработать миллионы ежедневных транзакций руками сотрудников какой-нибудь компании. Именно поэтому, когда подобные операции выполняются на машинах, можно автоматически анализировать большие объемы текста, экономя время и деньги, предоставляя больше информации о бизнес-данных и автоматизации процессов.

Существуют разные методы анализа текста. Во-первых, рассмотрим более простые методы.

· Частотный анализ может использоваться для перечисления наиболее часто встречающихся слов или понятий в данном тексте. Это может быть полезно для ряда случаев, например, для анализа слов или выражений, которые клиенты чаще всего используют в разговорах о поддержке, например, если слово «доставка» встречается чаще всего, это может указывать на наличие проблем со службой доставки компании.

· Словосочетания: данный метод помогает определить слова, которые обычно встречаются вместе. Например, в отзывах клиентов на веб-сайте бронирования отелей слова «воздух» и «кондиционирование» чаще встречаются вместе, а не появляются по отдельности. Биграммы (два смежных слова, например, «кондиционер» или «поддержка клиентов») и триграммы (три смежных слова, например, «нет на работе» или «продолжение следует»), являются наиболее распространенными типами словосочетания, которые используют при анализе. Словосочетания могут быть полезны для выявления скрытых семантических структур и улучшения детализации представлений, считая биграммы и триграммы одним словом.

· Соответствия помогают определить контекст и примеры слов или набора слов. Например, ниже на рисунке 9 приведено соответствие слова «simple» в наборе обзоров приложений:

Рисунок 9. Примеры соответствия слова «simple»

В этом случае соответствие слова «simple» может дать нам быстрое понимание того, как рецензенты используют это слово. Оно также может быть использовано для расшифровки неоднозначности человеческого языка при рассмотрении того, как слова используются в разных контекстах, а также в состоянии анализировать более сложные фразы.

Теперь коснёмся более продвинутых методов: классификацией текста и извлечением текста.

Классификация текста - это процесс присвоения предопределенных тегов или категорий неструктурированному тексту. Он считается одним из наиболее полезных методов нейролингвистического программирования, потому что он настолько универсален и может организовывать, структурировать и классифицировать практически все.

Наиболее распространённые задачи классификации текста следующие:

· Анализ настроений

· Анализ темы

· Классификация языка

· Поиск намерений

Извлечение текста является еще одним широко используемым методом анализа текста для получения информации из данных. Он включает в себя извлечение фрагментов данных, которые уже существуют в любом данном тексте, поэтому, если вы хотите извлечь важные данные, такие как ключевые слова, цены, названия компаний и спецификации продукта, вы должны обучить модель для автоматического обнаружения этой информации. Извлечение текста часто используется вместе с классификацией текста, чтобы компании могли одновременно классифицировать свои данные и извлекать информацию. Существуют разные модели извлечения для разных типов целей, которые перечислены ниже.

· Извлечение ключевого слова

· Признание сущности

· Смысловое значение

· Кластеризация

В данной работе основным методом анализа текста будет частотный анализ, который позволит определить с какой частотой нужное слово встречается в тексте (или же сколько твитов, если рассматривать социальную сеть Twitter, в день содержат нужное слово), чтобы в дальнейшем использовать это для построения временного ряда и его анализа с помощью рекуррентных диаграмм.

Рекуррентная диаграмма - это продвинутый метод нелинейного анализа данных, визуализация (или график) квадратной матрицы, в которой элементы матрицы соответствуют тем временам, когда состояние динамической системы повторяется (столбцы и строки соответствуют определенной паре времени). Технически, RP обнаруживает все времена, когда траектория фазового пространства динамической системы достигает примерно одной и той же области в фазовом пространстве.

Естественные процессы могут иметь отчетливое повторяющееся поведение, например периодичности (как сезонные циклы или циклы Миланковича), но также и нерегулярные цикличности (как южная осцилляция). Более того, повторяемость состояний в том смысле, что через некоторое время состояния произвольно близки, является фундаментальным свойством детерминированных динамических систем и типична для нелинейных или хаотических систем. Повторяемость состояний в природе известна давно, а также обсуждалась в ранних публикациях [32].

Экман и соавторы в 1987 представили инструмент, который может визуализировать повторение состояний в фазовом пространстве. Обычно фазовое пространство не имеет измерения (не считают двухмерных и трёхмерных пространств), которое позволило бы его отобразить. Многомерные фазовые пространства могут быть визуализированы только проекцией в двух- или трехмерные подпространства. Тем не менее, инструмент Экмана позволяет исследовать m-мерную фазовую траекторию посредством двумерного представления ее внешних значений. Такое повторение состояния одного момента во времени в другой момент отмечается в двумерной квадратной матрице точками с единицами и нулями (черные и белые точки на графике), где обе оси являются осями времени. Это представление называется рекуррентной диаграммой. Такой RP может быть математически выражен как:

где N - количество возможных состояний , - предельное расстояние, функция Хевисайда.

На рисунке 10 представлен сегмент траектории фазового пространства системы Лоренца (для стандартных параметров ) с использованием трех компонентов и соответствующей рекуррентной диаграммы. Точка траектории в j, которая попадает в окрестность (серый круг в (A)) данной точки в i, считается точкой повторения (черная точка на траектории в (A)). И тем самым отмечается точкой на рекуррентной диаграмме справа. Точка вне окрестности (маленький кружок в (A)) вызывает белую точку в RP.

Рисунок 10. Траектория фазового пространства системы Лоренца (а), рекуррентная диаграмма для системы Лоренца (б)

Помимо стандартного рекуррентного графика имеются и его вариации, которые сейчас и будут рассмотрены.

И всё-таки наиболее часто используемый окрестность - это окрестность с фиксированным радиусом .

В рекуррентных диаграммах такое впервые было использовано Збилутом в 1991. Фиксированный радиус означает, что в результате получается симметричная диаграмма. Тип окрестности, который следует использовать, зависит от приложения. Особенно в приложениях кросс-рекуррентных диаграмм, соседство с фиксированной окрестностью будет играть важную роль.

В литературе были предложены и другие варианты рекуррентных диаграмм:

· Ивански и Брадли [15] в 1998 году определили диаграмму с интервальной окрестностью:

Точки считаются рекуррентными, если попадают в интервал ограниченный внутренним () и внешним () радиусом. Авторы предложили использовать этот тип RP для изучения «интересных структур» в RP. Преимущество такого рекуррентного графика с пороговым значением коридора заключается в его повышенной устойчивости к точкам повторения. Однако такой интервальный коридор удаляет внутренние точки в широких диагональных линиях, что приводит к двум линиям вместо одной. Следовательно, такие RP не подходят для количественного анализа. Подобное использование окрестностей можно найти в алгоритме вычисления показателей Ляпунова из экспериментальных временных рядов.

· Чой с соавторами [18] в 1999 году представили перпендикулярную рекуррентную диаграмму:

В данном случае - дельта-функция. Эта рекуррентная диаграмма содержит только те точки , которые попадают в окрестности и лежат в (m-1)-мерном подпространстве, перпендикулярном траектории фазового пространства в точке . Эти точки локально соответствуют тем, которые лежат на сечении Пуанкаре. Этот критерий сильнее избавляет RP от точек повторения, основанных на движении по касательной, чем предыдущий интервальный метод. Авторами показана повышенная эффективность перпендикулярных рекуррентных диаграмм для их применения при оценке наибольшего показателя Ляпунова. Используя этот тип RP, обнаружение неустойчивых периодических орбит (если они существуют) является более надежным.

· В том же направлении развивается и изо-направленная рекуррентная диаграмма, представленная Хораем и соавторами в 2002 году.

Такие рекуррентные точки связаны с соседними траекториями, которые идут параллельно и в одном направлении. Хорай представил дополнительный изо-направленный график окрестностей, который является просто произведением между общим рекуррентным графиком и изо-направленным рекуррентным графиком

Вычисление для такой особой диаграммы проще, чем для перпендикулярной рекуррентной диаграммы. Но хотя он и лучше избавляет от ложной рекуррентности, чем обычная диаграмма, она не достигает качества перпендикулярного графика повторения. Недостатком является и дополнительный параметр T, который должен быть тщательно определен ранее (однако, похоже, что этот параметр должен быть связан с задержкой вложения).

· Оконные и мета-рекуррентные диаграммы были предложены в качестве средства исследования внешней силы или нестационарности в системе [22]. Впервые они получены путем покрытия RP квадратами (окнами) размера и усреднения точек повторения, которые содержатся в этих окнах. Следовательно, оконная рекуррентная диаграмма представляет собой матрицу и состоит из значений, которые не ограничены нулем и единицей (это предполагает представление в цветовой кодировке). Эти значения соответствуют сумме кросс-корреляции между частями с длинной , начиная с (для кросс-корреляционного интеграла):

где

Метарекуррентная диаграмма была определена в 1997 году и представляет собой матрицу расстояний, полученную из суммы взаимной корреляции:

Применяя дополнительное пороговое значение к (аналогично обычным рекуррентным диаграммам), также возможно черно-белое пунктирное представление.

Манука и Савит сделали еще один шаг вперед. Они использовали коэффициенты из суммы взаимной корреляции, чтобы сформировать метафазное пространство. Из этого метафазного пространства создается рекуррентная или неповторяющаяся диаграмма, которую можно использовать для характеристики нестационарности во временных рядах.

На рисунке 11 представлены четыре рекуррентные диаграммы, на которых отображены (слева направо, сверху вниз): обычная рекуррентная диаграмма, с фиксированной окрестностью, интервальная рекуррентная диаграмма и перпендикулярная рекуррентная диаграмма.

Рисунок 11. Стандартная рекуррентная диаграмма, рекуррентная диаграмма с фиксированной окрестностью, интервальная рекуррентная диаграмма, перпендикулярная рекуррентная диаграмма

Выбор конкретного варианта из этого разнообразия RP зависит от проблемы и вида исходных данных. Перпендикулярные RP настоятельно рекомендуются для количественного анализа, основанного на диагональных структурах, тогда как RP с интервальными значениями не подходят для этой задачи. Оконные RP подходят для визуализации поведения на больших расстояниях довольно длинных наборов данных. Если особый интерес представляет рекуррентное поведение для состояний в пределах предопределенного участка траектории фазового пространства, то тогда стоит обратиться к RP с горизонтальной главной диагональю.

Следует еще раз подчеркнуть, что рекуррентность является важной особенностью. Помимо графиков повторения, есть и другие методы, которые используют повторения. Например, рекуррентность в фазовом пространстве используется для статистики времени повторения, отображения первого возвращения, график разделения пространства-времени или в качестве меры нестационарности.

Первоначальная цель RP - визуальный осмотр траекторий фазового пространства большой размерности. Взгляд на рекуррентную диаграмму дает подсказки об эволюции этих траекторий во времени. Преимущество RP заключается в том, что они также могут применяться к довольно коротким и даже нестационарным данным.

RP показывают характерные крупномасштабные и мелкомасштабные структуры. Первые были определены Экманом как топология, а последняя как текстура. Топология даёт общее представление, которое можно охарактеризовать как однородное, периодическое (колебательное), дрейф и сдвиги.

· Однородные RP типичны для стационарных и автономных систем, в которых времена релаксации являются короткими по сравнению со временем, охватываемым RP. Примером такого RP является случайный временной ряд.

· Колебательные системы имеют RP с диагонально ориентированными периодическими рекуррентными структурами (диагональные линии, шахматные структуры). Для квазипериодических систем расстояния между диагональными линиями различны. Однако даже для тех колеблющихся систем, колебания которых не так легко распознать, RP можно использовать для нахождения их колебаний.

· Дрейф вызван системами с медленно меняющимися параметрами. Такое медленное (адиабатическое) изменение осветляет верхний левый и нижний правый углы RP.

· Резкие изменения в динамике, а также экстремальные события вызывают белые области или полосы в RP. RP предлагают легкую возможность найти и оценить экстремальные и редкие события, используя частоту их повторений.

На рисунке 12 представлена характерная топология рекуррентных диаграмм.

Рисунок 12. (A) однородная рекуррентная диаграмма (равномерно распределенный шум), (B) периодический (суперпозиционные гармонические колебания), (C) дрейф (логистическое отображение с линейно увеличивающимся членом), (D) сдвиги (броуновское движение)

Эти примеры иллюстрируют, насколько разными могут быть рекуррентные диаграммы.

При ближайшем рассмотрении RP обнаруживаются и мелкомасштабные структуры (текстура), которые представляют собой отдельные точки, диагональные линии, а также вертикальные и горизонтальные линии (комбинация вертикальных и горизонтальных линий, очевидно, образует прямоугольные группы точек повторения).

· Одиночные, изолированные точки повторения могут возникать, если состояния редки, если они не сохраняются в течение какого-то времени или если они сильно колеблются. Однако они не являются уникальным признаком случайности или шума (например, на диаграммах).

· Диагональная линия (для где - длина диагональной линии) возникает, когда сегмент траектории проходит параллельно другому сегменту, то есть траектория посещает одну и ту же область фазового пространства в разное время. Длина этой диагональной линии определяется продолжительностью подобного локального развития сегментов траектории. Направление этих диагональных структур может отличаться. Диагональные линии, параллельные главной диагонали (угол р/4) демонстрируют параллельные траектории за одно и тоже изменение во времени. Диагональные структуры, перпендикулярные главной диагонали, наоборот (зеркальные сегменты; это часто является подсказкой о неправильном вложении). Поскольку в определении показателя Ляпунова используется время параллельного прохождения траекторий, связь между диагональными линиями и показателем Ляпунова очевидна.

· Вертикальная (горизонтальная) линия (для где - длина вертикальной линии) обозначает промежуток времени, в течение которого состояние не изменяется или изменяется очень медленно. Кажется, будто положение на какое-то время застыло. Это типичное поведение ламинарных состояний (перемежаемость).

Эти мелкомасштабные структуры являются основой для количественного анализа RP.

Суммируя упомянутые пункты, можно определить следующий список наблюдений и дать их соответствующую качественную интерпретацию, как в таблице 1.

Таблица 1. Интерпретация рекуррентной диаграммы

Что отображено

Интерпретация

Однородность

процесс явно стационарен

Затухание в верхнем левом и нижнем правом углах

нестационарность; процесс содержит сдвиг или дрейф

Возникновение белых полос

нестационарность; некоторые состояния редки или далеки от нормальных; могли возникнуть переходы

Периодические/ квазипериодические закономерности

цикличности в процессе; временное расстояние между периодическими структурами (например, линиями) соответствует периоду; длинные диагональные линии с разным расстоянием друг от друга показывают квазипериодический процесс

Одиночные изолированные точки

сильные колебаний в процессе; если возникают только отдельные изолированные точки, процесс может быть некоррелированным, случайным или даже антикоррелированным процессом

Диагональные линии (параллельные главной диагонали)

эволюция состояний в разное время схожа; процесс может быть детерминированным; если эти диагональные линии находятся рядом с одиночными изолированными точками, процесс может быть хаотическим (если эти диагональные линии являются периодическими, могут быть получены нестабильные периодические орбиты)

Диагональные линии (перпендикулярные главной диагонали)

эволюция состояний в разное время схожа, но с обратным временем; иногда это признак недостаточного вложения

Вертикальные и горизонтальные линии / скопления

некоторые состояния не меняются или изменяются медленно в течение некоторого времени; индикация ламинарных состояний

В структурах имеются длинные изогнутые линии

эволюция состояний одинакова в разные моменты времени, различия лишь в скорости изменений; динамика системы может изменяться (но стоит учесть: это не совсем верно для структур с короткими изогнутыми линиями)

Визуальная интерпретация RP требует некоторого опыта. Изучение рекуррентных диаграмм из парадигматических систем дает хорошее введение в характерную топологию и текстуру. Тем не менее, их количественная оценка предлагает более объективный способ исследования рассматриваемой системы. Благодаря этой количественной оценке RP становятся все более и более популярными среди исследователей, которые используют RP и их методы количественной оценки для анализа данных.

Визуально RP могут дать некоторые полезные сведения о динамике динамических систем. Однако графические дисплеи с недостаточным разрешением для отображения RP имеют тот недостаток, что пользователи вынуждены субъективно и интуитивно понимать и интерпретировать шаблоны и структуры, представленные на рекуррентной диаграмме. И разные наблюдатели видят вещи по-разному. Чтобы преодолеть субъективность методологии, в начале 1990-х годов Збилут и Уэббер представили определения и процедуры для количественной оценки структур рекуррентных диаграмм. Они определили набор из пяти рекуррентных переменных, которые функционировали как меры сложности, основанные на структурировании диагональных линий в RP, и создали рекуррентный количественный анализ.


Подобные документы

  • Освоение методов манипуляции параметрами SVG изображений при помощи JavaScript и возможности по анимации в современных браузерах. Интерфейс и структура модуля визуализации данных. Определение аномальных данных и их определение, реализованные типы.

    курсовая работа [1,7 M], добавлен 20.05.2014

  • Применение методов многомерного анализа для визуализации взаимосвязей web и социальных сетей в социологических исследованиях. Системы интеллектуального поиска данных Nigma.ru, Wolfram Alpha и Quintura. Социологическая информация и эмпирические данные.

    презентация [2,6 M], добавлен 09.10.2013

  • Контекстная диаграмма системы обслуживания и диаграмма декомпозиции. Обоснование необходимости внедрения информационной системы. Обзор существующих программных продуктов. ER-диаграмма системы, описание таблиц базы данных. Используемые системы кодирования.

    дипломная работа [577,2 K], добавлен 27.01.2014

  • Понятие информационной безопасности и классификация ее угроз. Анализ работы симметричных систем криптографической защиты данных и основы нелинейного шифрования потока. Функционирование линейных конгруэнтных генераторов псевдослучайных последовательностей.

    дипломная работа [968,8 K], добавлен 01.07.2011

  • Метод интегральных многообразий. Теория дифференциальных уравнений. Разбиение матрицы Якоби. Математическая модель процесса распада комплекса фермент-продукта. Построение интегрального многообразия. Составление матрицы Гурвица. Фазовые портреты системы.

    дипломная работа [1,4 M], добавлен 27.06.2013

  • Обзор существующих решений на основе открытых данных. Технологии обработки данных и методы их визуализации. Социальные сети для извлечения данных. Ограничение географической локации. Выбор набора и формат хранения открытых данных, архитектура системы.

    курсовая работа [129,5 K], добавлен 09.06.2017

  • Написание программы на языке SAS для построения модели скалярной динамической дискретной стохастической системы, анализ этой системы. Особенности использования фильтра Ф.К.1 с резервированием. Построение схемы резервирования датчиков для матрицы.

    контрольная работа [32,7 K], добавлен 28.09.2013

  • Выделение подсистем на основе некоторой меры. Выбор типов шкал. Метод логического ранжирования. Построение моделей систем. Динамическая модель системы в виде сети Петри. Элементарные контуры графа системы. Расчет энтропии системы и матрицы приоритетов.

    курсовая работа [1,2 M], добавлен 06.08.2013

  • Анализ предметной области. Логическая и физическая модели информационной системы. Средства реализации диаграмм потоков данных. Заполнение форм ввода. Проверка регистрационных данных, работа с форумом. Требования к функционированию компонентов системы.

    курсовая работа [2,3 M], добавлен 14.01.2018

  • Составление процедуры для матрицы, разложения матрицы на множители, решения системы линейных уравнений, нахождения определителя матрицы и матрицы с транспонированием. Суть метода квадратного корня. Разложение матрицы на множители. Листинг программы.

    лабораторная работа [39,4 K], добавлен 18.09.2012

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.