Исследование алгоритма восстановления пропусков в измеряемых сигналах на основе модели авторегрессии для системы мониторинга состояния дамб

Проблема пропусков, вызванных сбоями, отключениями систем передачи или сбора данных, неправильными настройками систем и другими внешними и внутренними факторами. Алгоритм восстановления пропусков в измеряемых сигналах на основе модели авторегрессии.

Рубрика Программирование, компьютеры и кибернетика
Вид статья
Язык русский
Дата добавления 28.10.2018
Размер файла 957,4 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Исследование алгоритма восстановления пропусков в измеряемых сигналах на основе модели авторегрессии для системы мониторинга состояния дамб

А.П. Козионов, А.Л. Пяйт, И.И. Мохов

(ООО "Сименс", Санкт-Петербург)

Аннотация

Нередко измерения датчиков содержат пропуски, вызванные, вызванные сбоями, отключениями систем передачи или сбора данных, неправильными настройками систем и другими внешними и внутренними факторами. В работе рассматривается подход и алгоритм восстановления пропусков в измеряемых сигналах на основе модели авторегрессии. Представленный алгоритм сравнивается с алгоритмом на основе метода "Гусеница-SSA" и алгоритмом на основе преобразования Фурье.

Введение

Для мониторинга состояния дамб применяются алгоритмы машинного обучения, анализирующие частотно-временные свойства сигналов (вейвлет-преобразование, оконное преобразование Фурье и т.д.) [1], [2], [3], [4]. Алгоритмы чувствительны к пропускам измерений. Одной из серьезных проблем систем мониторинга состояния дамб является качество измерений датчиков, вызванное сбоями, отключениями систем передачи или сбора данных, неправильными настройками систем и другими внешними и внутренними факторами, поэтому необходимы алгоритмы улучшения качества измерений. Восстановление пропусков измерений представляет собой наиболее сложную задачу проблематики улучшения качества измерений. Настоящая проблема актуальна не только для рассматриваемой системы, но и для других систем, где имеется дело с полевыми измерениями: системы водоснабжения [5], метеорологические системы [6] и т.д.

Пропуски в измерениях могу варьироваться от минут до нескольких дней. Для обучения алгоритмов мониторинга дамб (алгоритмы на основе машинного обучения) необходимы исторические данные. Алгоритмы восстановления пропусков должны оценивать пропущенные значения сигналов с учетом частотно-временных зависимостей, присутствующих в сигналах. Примеры сигналов (условно, "сигнал А" и "сигнал Б") порового давления (давление воды в порах почвы) с дамбы и пропусков представлены на рисунке 1 (дамба в городе Бостон, Великобритания). Периодические колебания соответствуют периодам приливов и отливов.

алгоритм восстановление пропуск авторегрессия

Рис.1. Примеры сигналов и пропусков в сигналах, формат даты ДД/ММ, 2011-2012 годов: а) - "сигнал А"; б) - "сигнал Б"; в) - укрупненный участок "сигнала А"

В настоящей работе мы представляем подход и алгоритмы восстановления пропусков в измеряемых сигналах. Предлагаемый подход основан на адаптивных алгоритмах восстановления пропусков в сигналах в условиях априорной неопределенности моделей сигналов. Алгоритмы, представленные в работе, используют исторические данные для восстановления сигналов. Настоящий подход исследовался авторами настоящей работы [1], [2], [3], для системы раннего предупреждения UrbanFlood [7]. Так же авторами представлен алгоритм на основе модели авторегрессии для восстановления пропусков в сигналах. Апробация алгоритмов проводилась на данных с дамбы, расположенной в городе Бостон (Великобритания).

Существует несколько способов восстановления пропусков в сигналах: сплайны, линейная интерполяция, интерполяционные фильтры [8]. Общий недостаток этих методов в том, что они выполняют интерполяцию без восстановления частотно-временных свойств сигналов на участках пропусков. В работе [9] представлен алгоритм восстановления на основе разложения по эмпирическим модам, но данное разложение не является стабильным и может привести к неудовлетворительному результату еще на этапе разложения сигнала [10]. При использовании алгоритмов на основе нейронных сетей возникает проблема обучения модели и стабильности результатов восстановления [6]. Стоит также отметить алгоритмы 3d-var и 4d-var [11], используемые в метеорологии, но для них требуются априорно заданные модели сигналов и помех. В случае применения алгоритмов многомерного восстановления сигналов, накладываются ограничения, связанные с зависимостью процедуры восстановления от доступности других данных (сигналов).

Одним из наиболее интересных алгоритмов адаптивного восстановления данных является алгоритм на основе метода "Гусеница-SSA", представленный в статье [12]. "Гусеница-SSA" [14] это адаптивный непараметрический метод разложения временных рядов (англ. SSA - singular spectrum analysis, спектрально-сингулярный анализ). Алгоритм восстановления на основе метода "Гусеница-SSA" рассматривается в работах [12], [15]. Идея алгоритма восстановления пропусков схожа с алгоритмом прогнозирования на основе метода "Гусеница-SSA" и заключается в оценке сигнала в местах пропусков моделями извлеченных компонент разложения.

Также интересные результаты показаны при использовании алгоритма на основе преобразования Ломба-Скаргла (преобразование Фурье для сигналов с неравномерной дискретизацией) [13]. Алгоритм применим для сигналов, имеющих ярко выраженные периодические составляющие. Идея алгоритма заключается в том, чтобы с использованием спектра Фурье оценивать в сигнале базовые частоты и восстанавливать с их помощью пропущенные значения.

Эти алгоритмы могут применяться к одномерным сигналам и имеют достаточно высокую точность восстановления.

Алгоритм синхронизации и восстановлению пропусков в измеряемых сигналах

Алгоритм синхронизации и восстановления пропусков в измеряемых сигналах состоит из четырех основных этапов (рисунок 2).

Этап 1-й - проверка измерений (валидация) и обнаружение пропусков. Под ошибками измерений подразумеваются выбросы в измерениях, различные специфичные ошибки, например, последовательности нулей, специальные значения измерений, соответствующие сбоям датчиков и т.д. Алгоритм обнаружения пропусков проверяет измерения на наличие пропущенных значений путем сравнения временных дискретов каждого измерения с задаваемой величины дискретизации ЕВС. Если превышает величину дискретизации ЕВС, то отмечается пропуск между измерениями.

Этап 2-й - интерполяция сигналов на единую временную сетку (ЕВС). На этом этапе выполняется интерполяция измерений, с разной частотой дискретизации, на единую временную сетку (ЕВС). Требуемая величина дискретизации ЕВС задается исходя из условий эксплуатации.

Этап 3-й - восстановление пропусков. Алгоритмы восстановления пропусков оценивают пропущенные значения измеряемых сигналов в местах пропусков, которые могут варьироваться от одного пропущенного измерения до сотен, в зависимости от типа измерений. Этот этап является наиболее сложным, и далее в статье будут исследоваться алгоритмы этого этапа.

Этап 4-й - запись результатов в базу данных. Восстановленные и синхронизированные сигналы записываются в базу данных, места восстановленных значений помечаются специальным флагом в базе данных.

Рис.2. Алгоритм синхронизации измерений и восстановления пропусков в измеряемых сигналах

Постановка задачи восстановления пропусков измеряемых сигналов

После этапа синхронизации сигналов имеются измерения с постоянной частотой дискретизации, описываемые временными рядами , где - множество отсчетов времени, .

Значения в некоторых отсчетах времени отсутствуют (пропуски). Необходимо найти оценку значений сигнала в местах пропусков. Априорно модель сигнала неизвестна. Имеются исторические записи сигналов (временных рядов).

Алгоритм восстановления пропусков на основе модели авторегрессии

Настоящий алгоритм был предложен авторами в качестве альтернативы двум предыдущим алгоритмам. Авторегрессионным называется процесс, в котором значение временного ряда находится в линейно зависимости от предыдущих значений временного ряда. Если значение временного ряда зависит от значений, отстоящих от 1 до лагов (отсчетов времени) назад, то мы наблюдаем авторегрессионный процесс порядка . Отсюда следует, что авторегрессионная модель (АР) представляет собой модель, в которой моделируемые значения задаются линейной функцией предыдущих наблюдений. По существу, авторегрессионная модель есть аналог линейной многофакторной модели (множественной регрессии) с той лишь разницей, что в качестве независимых переменных выступают предыдущие значения временного ряда. Авторегрессионный можно описать следующим образом [16]:

, (10)

где - коэффициенты авторегрессии, - белый шум, - порядок модели авторегрессии.

Для оценки коэффициентов авторегрессии используется метод наименьших квадратов (МНК) [16].

Модель авторегрессии сигнала позволяет вычислять оптимальный прогноз на заданное число шагов вперед, и давать оценку ошибки прогноза. Согласно [16] дисперсия ошибки прогноза на шагов вперед для модели авторегрессии порядка [16] оценивается следующим образов:

, (11)

где - дисперсия шума модели, - веса, рассчитывающиеся рекуррентно [16]:

, (12)

Идея алгоритма восстановления пропусков на основе модели авторегрессии заключается в прогнозировании значений временного ряда как вперед во времени, так и назад, с последующим оптимальным усреднением результатов.

Таким образом, необходимы две модели временного ряда, прямая во времени (прогнозирующая), описываемая выражением (10), и обратная (интерполяционная):

, (13)

Модель, прогнозирующая вперед (прямая), будет давать лучшие оценки в начале пропуска, а модель, прогнозирующая назад (обратная) - лучшие оценки в конце пропуска, так как точность прогноза падает с увеличением количества шагов прогнозирования, в соответствии в выражением (11).

Зная оценки значений в местах пропусков прямой и обратной модели и соответственно и дисперсии ошибки оценки прогноза прямой и обратной моделей, формула (11), для каждого момента времени и соответственно, можно применить оптимальное усреднение результатов прогноза, методом наилучшей линейной несмещенной оценки, чтобы получить оценку пропущенных значений:

, (14)

Алгоритм восстановления состоит из следующих шагов (рисунок 3): как в предыдущих алгоритмах сначала исходный временной ряд центрируется, путем вычитания среднего и заполнения пропусков нулевыми значениями. Далее оцениваются прямая и обратная модели. Оценка модели авторегрессии проводится методом перекрестной проверки, заключающегося в искусственном создании пропусков разной величины в сигналах, восстановления пропусков разными моделями и выбора такой модели, которая давала бы наименьшую ошибку на всех пропусках [17]. На третьем шаге выполняется оценка значений в местах пропусков обеими моделями. На последних шагах выполняется оптимальное усреднение результатов и прибавление среднего.

Рис.3. Блок-схема алгоритма восстановления пропусков на основе модели авторегрессии

Анализ результатов моделирования

В настоящей работе мы провели апробацию алгоритмов на реальных данных системы мониторинга состояния дамбы, города Бостон, Великобритания. В дамбу была установлена сеть многопараметрических датчиков, которые измеряют поровое давление (давление воды в порах почвы), температуру почвы и отклонение от вертикали (инклинометры). Дискретизация сигналов составляла 15 минут. В настоящей работе был проведён анализ датчиков порового давления.

Для моделирования было выбрано 14 сигналов, по 7 сигналов из различных точек установки в дамбе. Примеры трех сигналов для моделирования представлены на рисунке 4. Для получения точностных характеристик восстановления пропусков, в каждом из сигналов в случайных местах создавались искусственные пропуски величиной от 15 минут (1 отсчет) до 2 недель (1344 отсчета). Для всех сигналов, пропуск каждой величины генерировался по 1000 в случайные моменты времени.

Алгоритм на основе модели авторегрессии сравнивался с алгоритмом на основе метода "Гусеница-SSA" [12], алгоритмом на основе преобразования Фурье [13] и с линейной интерполяцией.

Рис.4. Сигналы для моделирования, формат даты ДД/ММ/ГГГГ, пунктирной рамкой выделен пример места, где создавался искусственный пропуск. Пунктирной рамкой выделены участки сигналов, представленные для демонстрации результатов на рисунке 5

Для расчета характеристик точности восстановления были выбраны метрики: - коэффициент детерминации (р-квадрат) и СКО (среднеквадратическое отклонение) ошибки оценки.

рассчитывается следующим образом:

, (13)

где - дисперсия ошибки оценки пропущенных значений, - дисперсия сигнала.

С уменьшением дисперсии ошибки оценки стремится к 1, с увеличением ошибки оценки стремится к отрицательным значениям. Значение , мы считали минимально допустимым.

На рисунке 5 представлены зависимости и СКО ошибки оценки соответственно для разных величин пропусков от 15 минут (1 отсчет) до 2 недель (1344 отсчета). Примерно одинаковую точность показывают алгоритмы восстановления на основе "Гусеница-SSA" и АР-модели, далее следует алгоритм на основе преобразования Фурье и наихудшая точность соответствует линейной интерполяции. Алгоритм на основе "Гусеница-SSA" и пересекает значение , для величины пропуска 755 отсчетов (~ 1,12 недели) с (мбар). АР-модели пересекает , для величины пропуска 672 (1 неделя) с (мбар). Для величины пропуска до 10 отсчетов (150 минут) все алгоритмы показывают примерно одну точность восстановления, это говорит о том, что для восстановления небольших пропусков (до 10 отсчетов) можно использовать линейную интерполяцию, на этапе синхронизации измерений. Значения ниже 0 не показаны (линейная интерполяция), так как соответствуют слишком низкой точности, не интересной для анализа.

Рис.5. Анализ точности восстановления: а) - зависимость коэффициента детерминации от величины пропуска для всех алгоритмов; б) - зависимость СКО ошибки оценки от величины пропуска для всех алгоритмов

На рисунке 6 представлены примеры восстановления пропусков величиной 384 отсчета (5 дней), для сигналов №1, №2 и №3. Вырезанный участок сигнала представлен на рисунке 3, пунктирная рамка. Как видно, алгоритмы восстановления на основе "Гусеница-SSA", АР-модели и преобразования Фурье сохраняют динамику сигнала и показывают примерно одинаковое поведение.

Рисунок 6 - Примеры восстановление пропусков участков сигналов, представленных на рисунке 3 пунктирной рамкой: а) - сигнал №1; б) - сигнал №2; в) - сигнал №3

Заключение

Предложенный подход основан на адаптивных алгоритмах восстановления пропусков в сигналах в условиях априорной неопределенности параметров сигналов. Преимущества такого подхода состоят в том, что алгоритмы адаптируются под поведение сигналов и не требуют предварительной оценки параметров сигналов.

Представленный алгоритм на основе модели авторегрессии авторами сравнивается с тремя другими алгоритмами восстановления пропусков: на основе метода "Гусеница-SSA", преобразования Фурье и линейной интерполяции. Моделирование алгоритмов восстановления пропусков было проведено на реальных данных дамбы города Бостон (Великобритания). Для пропусков величиной до 10 отсчётов все алгоритмы показали высокую точность, что говори о том, что для восстановления небольших пропусков достаточно использовать линейную интерполяцию. Алгоритм основе модели авторегрессии показал высокую точность восстановления, сравнимую с точность алгоритма на основе метода "Гусеница-SSA", и более высокую, чем алгоритм на основе преобразования Фурье.

Представленный подход и алгоритм могут быть применены и в других областях, где имеются задачи, связанные с улучшением качества измерений и полевыми измерениями, такие как: системы водоснабжения, метеорологические системы и другие.

Литература

1. Flood - Data and statistics // [Flood - Data and statistics] URL: http://www.preventionweb.net/english/hazards/statistics/.

2. Wohl. E. Inland Flood Hazards: Human, Riparian, and Aquatic Communities - Cambridge: Cambridge University Press, 2000.

3. Baars S., Kempen M. The Causes and Mechanisms of Historical Dike Failures in the Netherlands // Official Publication of the European Water Association. 2009.

4. FLOODsite project // [FLOODsite project] URL: http://www.floodsite.net/.

5. FloodControl 2015 // [FloodControl 2015] URL: http://www.floodcontrol2015.com/.

6. UrbanFlood project // [UrbanFlood project] URL: http://www.urbanflood. eu.

7. Krzhizhanovskaya V.V. et al. Flood early warning system: design, implementation and computational modules // Procedia Computer Science. 2011, Vol.14, - P.106-115.

8. Pyayt A. et al. Data-driven modelling for flood defence structure analysis // Comprehensive Flood Risk Management - Klijn & Schweckendiek. - Rotterdam, 2013.

9. Козионов А.П. Вейвлет-преобразование и одноклассовая классификация для мониторинга состояния дамб // Козионов А.П. [и др.]. Информационно-управляющие системы. - №4., Выпуск 71. - 2014.

10. J. Quevedoa и др. Validation and reconstruction of flow meter data in the Barcelona water distribution network // Control Engineering Practice. 2012, Vo1.8, № 6. - P.640-651.

11. A. M. Moffata и др.comprehensive comparison of gap-filling techniques for eddy covariance net carbon fluxes // Agricultural and Forest Meteorology. - №147., Выпуск 3. - 2006.

12. J. Simm и др. Interpreting Sensor Measurements in Dikes - Experiences from Urbanflood Pilot Sites // Comprehensive Flood Risk Management - Klijn & Schweckendiek (eds). 2012.

13. H. Spath One-Dimensional Spline Interpolation Algorithms // MA: AK Peters Wellesley, 1995.

14. A. Moghtaderi, P. Borgnat, P. Flandrin Gap-filling by the empirical mode decomposition // 2012 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2012. - P.3821-3824.

15. C. Lorenc,F. Rawlins Why does 4D-Var beat 3D-Var? // Quarterly Journal of the Royal Meteorological Society. 2005, Vol.131., № 613

16. D. Kondrashov, Y. Shprits, M. Ghil Gap filling of solar wind data by singular spectrum analysis // Geophysical research letters. 2010, Vol.37, № 15 - P.1-6.

17. K. Hocke,N. Kдmpfer Gap filling and noise reduction of unevenly sampled data by means of the Lomb-Scargle periodogram // Atmos. Chem. Phys. 2009, Vol.9, - P.4197-4206.

18. Н.Э. Голяндина. Метод "Гусеница"-SSA: анализ временных рядов: учебное пособие. - СПб, 2004.

19. N. Golyandina,E. Osipov. The “Caterpillar”-SSA method for analysis of time series with missing values // Journal of Statistical Planning and Inference. 2007, Vol.137, № 8. - P.2642 - 2653.

20. Georg Box,Gwilym Jenkins. Time series analysis: Forecasting and control // San Francisco: Holden-Day, 1970.

21. L. Kavalieris. The estimation of the order of an autoregression using recursive residuals and cross-validation // Journal of Time Series Analysis. 1989, Vol.10. - P.271-281.

Размещено на Allbest.ru


Подобные документы

  • Особенности физического и инфологического проектирования баз данных. Этапы и специфика создания электронного каталога для учета пропусков учащихся. Анализ области систематизации информации. Разработка программы-клиент для взаимодействия с базой данных.

    дипломная работа [484,9 K], добавлен 14.07.2014

  • Особенности и параметры процесса защиты информации. Оценка полноты и достоверности информации. Методы восстановления пропусков в массивах данных с использованием регрессионного моделирования. Методы структурирования данных в условиях неопределенности.

    курсовая работа [89,1 K], добавлен 13.07.2011

  • Заданный стационарным временным рядом случайный процесс, способы его моделирования посредством применения авторегрессии. Оценка эффективности использования двух способов нахождения оценок параметров модели. Модели авторегрессии скользящего среднего.

    курсовая работа [1,0 M], добавлен 27.04.2015

  • Методы количественного и качественного оценивания систем, моделирование и разработка концептуальной модели, показатели пропускной способности, достоверности передачи данных. Интеграция систем ситуационного, имитационного и экспертного моделирования.

    курсовая работа [240,3 K], добавлен 24.06.2010

  • Архитектура и функции СУБД. Инфологическая модель данных "Сущность-связь". Ограничения целостности. Характеристика связей и язык моделирования. Манипулирование реляционными данными. Написание сервера на Java.3 и приложения-клиента на ActoinScript 3.0.

    курсовая работа [935,3 K], добавлен 09.07.2013

  • Область применения – учебные учреждения, где ведется учет пропусков занятий студентами. Технические характеристики разрабатываемого проекта: описание основных типов входных и выходных данных, алгоритм программы. Технико-экономические показатели проекта.

    курсовая работа [906,3 K], добавлен 28.12.2010

  • Описание формальной модели алгоритма на основе рекурсивных функций. Разработка аналитической и программной модели алгоритма для распознающей машины Тьюринга. Разработка аналитической модели алгоритма с использованием нормальных алгоритмов Маркова.

    курсовая работа [1,5 M], добавлен 07.07.2013

  • Понятие и классификация систем передачи данных. Характеристика беспроводных систем передачи данных. Особенности проводных систем передачи данных: оптико-волоконных и волоконно-коаксиальных систем, витой пары, проводов. Оценка производителей аппаратуры.

    курсовая работа [993,0 K], добавлен 04.03.2010

  • Построение и анализ модели работы магистрали передачи данных. Формализация концептуальной модели, создание моделирующего алгоритма. Компьютерная программа, имитирующая передачу данных по двухканальной магистрали для получения статистических результатов.

    курсовая работа [294,0 K], добавлен 17.01.2015

  • Изучение модели операционной системы. Понятие и общая характеристика тупиков, алгоритм их обработки и предотвращения. Рассмотрение примеры графа распределения ресурсов с тупиком и с циклом без него. Правила восстановления ресурсов на выходе из системы.

    презентация [1,3 M], добавлен 24.01.2014

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.