Исследование алгоритма восстановления пропусков в измеряемых сигналах на основе модели авторегрессии для системы мониторинга состояния дамб
Проблема пропусков, вызванных сбоями, отключениями систем передачи или сбора данных, неправильными настройками систем и другими внешними и внутренними факторами. Алгоритм восстановления пропусков в измеряемых сигналах на основе модели авторегрессии.
Рубрика | Программирование, компьютеры и кибернетика |
Вид | статья |
Язык | русский |
Дата добавления | 28.10.2018 |
Размер файла | 957,4 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru/
Исследование алгоритма восстановления пропусков в измеряемых сигналах на основе модели авторегрессии для системы мониторинга состояния дамб
А.П. Козионов, А.Л. Пяйт, И.И. Мохов
(ООО "Сименс", Санкт-Петербург)
Аннотация
Нередко измерения датчиков содержат пропуски, вызванные, вызванные сбоями, отключениями систем передачи или сбора данных, неправильными настройками систем и другими внешними и внутренними факторами. В работе рассматривается подход и алгоритм восстановления пропусков в измеряемых сигналах на основе модели авторегрессии. Представленный алгоритм сравнивается с алгоритмом на основе метода "Гусеница-SSA" и алгоритмом на основе преобразования Фурье.
Введение
Для мониторинга состояния дамб применяются алгоритмы машинного обучения, анализирующие частотно-временные свойства сигналов (вейвлет-преобразование, оконное преобразование Фурье и т.д.) [1], [2], [3], [4]. Алгоритмы чувствительны к пропускам измерений. Одной из серьезных проблем систем мониторинга состояния дамб является качество измерений датчиков, вызванное сбоями, отключениями систем передачи или сбора данных, неправильными настройками систем и другими внешними и внутренними факторами, поэтому необходимы алгоритмы улучшения качества измерений. Восстановление пропусков измерений представляет собой наиболее сложную задачу проблематики улучшения качества измерений. Настоящая проблема актуальна не только для рассматриваемой системы, но и для других систем, где имеется дело с полевыми измерениями: системы водоснабжения [5], метеорологические системы [6] и т.д.
Пропуски в измерениях могу варьироваться от минут до нескольких дней. Для обучения алгоритмов мониторинга дамб (алгоритмы на основе машинного обучения) необходимы исторические данные. Алгоритмы восстановления пропусков должны оценивать пропущенные значения сигналов с учетом частотно-временных зависимостей, присутствующих в сигналах. Примеры сигналов (условно, "сигнал А" и "сигнал Б") порового давления (давление воды в порах почвы) с дамбы и пропусков представлены на рисунке 1 (дамба в городе Бостон, Великобритания). Периодические колебания соответствуют периодам приливов и отливов.
алгоритм восстановление пропуск авторегрессия
Рис.1. Примеры сигналов и пропусков в сигналах, формат даты ДД/ММ, 2011-2012 годов: а) - "сигнал А"; б) - "сигнал Б"; в) - укрупненный участок "сигнала А"
В настоящей работе мы представляем подход и алгоритмы восстановления пропусков в измеряемых сигналах. Предлагаемый подход основан на адаптивных алгоритмах восстановления пропусков в сигналах в условиях априорной неопределенности моделей сигналов. Алгоритмы, представленные в работе, используют исторические данные для восстановления сигналов. Настоящий подход исследовался авторами настоящей работы [1], [2], [3], для системы раннего предупреждения UrbanFlood [7]. Так же авторами представлен алгоритм на основе модели авторегрессии для восстановления пропусков в сигналах. Апробация алгоритмов проводилась на данных с дамбы, расположенной в городе Бостон (Великобритания).
Существует несколько способов восстановления пропусков в сигналах: сплайны, линейная интерполяция, интерполяционные фильтры [8]. Общий недостаток этих методов в том, что они выполняют интерполяцию без восстановления частотно-временных свойств сигналов на участках пропусков. В работе [9] представлен алгоритм восстановления на основе разложения по эмпирическим модам, но данное разложение не является стабильным и может привести к неудовлетворительному результату еще на этапе разложения сигнала [10]. При использовании алгоритмов на основе нейронных сетей возникает проблема обучения модели и стабильности результатов восстановления [6]. Стоит также отметить алгоритмы 3d-var и 4d-var [11], используемые в метеорологии, но для них требуются априорно заданные модели сигналов и помех. В случае применения алгоритмов многомерного восстановления сигналов, накладываются ограничения, связанные с зависимостью процедуры восстановления от доступности других данных (сигналов).
Одним из наиболее интересных алгоритмов адаптивного восстановления данных является алгоритм на основе метода "Гусеница-SSA", представленный в статье [12]. "Гусеница-SSA" [14] это адаптивный непараметрический метод разложения временных рядов (англ. SSA - singular spectrum analysis, спектрально-сингулярный анализ). Алгоритм восстановления на основе метода "Гусеница-SSA" рассматривается в работах [12], [15]. Идея алгоритма восстановления пропусков схожа с алгоритмом прогнозирования на основе метода "Гусеница-SSA" и заключается в оценке сигнала в местах пропусков моделями извлеченных компонент разложения.
Также интересные результаты показаны при использовании алгоритма на основе преобразования Ломба-Скаргла (преобразование Фурье для сигналов с неравномерной дискретизацией) [13]. Алгоритм применим для сигналов, имеющих ярко выраженные периодические составляющие. Идея алгоритма заключается в том, чтобы с использованием спектра Фурье оценивать в сигнале базовые частоты и восстанавливать с их помощью пропущенные значения.
Эти алгоритмы могут применяться к одномерным сигналам и имеют достаточно высокую точность восстановления.
Алгоритм синхронизации и восстановлению пропусков в измеряемых сигналах
Алгоритм синхронизации и восстановления пропусков в измеряемых сигналах состоит из четырех основных этапов (рисунок 2).
Этап 1-й - проверка измерений (валидация) и обнаружение пропусков. Под ошибками измерений подразумеваются выбросы в измерениях, различные специфичные ошибки, например, последовательности нулей, специальные значения измерений, соответствующие сбоям датчиков и т.д. Алгоритм обнаружения пропусков проверяет измерения на наличие пропущенных значений путем сравнения временных дискретов каждого измерения с задаваемой величины дискретизации ЕВС. Если превышает величину дискретизации ЕВС, то отмечается пропуск между измерениями.
Этап 2-й - интерполяция сигналов на единую временную сетку (ЕВС). На этом этапе выполняется интерполяция измерений, с разной частотой дискретизации, на единую временную сетку (ЕВС). Требуемая величина дискретизации ЕВС задается исходя из условий эксплуатации.
Этап 3-й - восстановление пропусков. Алгоритмы восстановления пропусков оценивают пропущенные значения измеряемых сигналов в местах пропусков, которые могут варьироваться от одного пропущенного измерения до сотен, в зависимости от типа измерений. Этот этап является наиболее сложным, и далее в статье будут исследоваться алгоритмы этого этапа.
Этап 4-й - запись результатов в базу данных. Восстановленные и синхронизированные сигналы записываются в базу данных, места восстановленных значений помечаются специальным флагом в базе данных.
Рис.2. Алгоритм синхронизации измерений и восстановления пропусков в измеряемых сигналах
Постановка задачи восстановления пропусков измеряемых сигналов
После этапа синхронизации сигналов имеются измерения с постоянной частотой дискретизации, описываемые временными рядами , где - множество отсчетов времени, .
Значения в некоторых отсчетах времени отсутствуют (пропуски). Необходимо найти оценку значений сигнала в местах пропусков. Априорно модель сигнала неизвестна. Имеются исторические записи сигналов (временных рядов).
Алгоритм восстановления пропусков на основе модели авторегрессии
Настоящий алгоритм был предложен авторами в качестве альтернативы двум предыдущим алгоритмам. Авторегрессионным называется процесс, в котором значение временного ряда находится в линейно зависимости от предыдущих значений временного ряда. Если значение временного ряда зависит от значений, отстоящих от 1 до лагов (отсчетов времени) назад, то мы наблюдаем авторегрессионный процесс порядка . Отсюда следует, что авторегрессионная модель (АР) представляет собой модель, в которой моделируемые значения задаются линейной функцией предыдущих наблюдений. По существу, авторегрессионная модель есть аналог линейной многофакторной модели (множественной регрессии) с той лишь разницей, что в качестве независимых переменных выступают предыдущие значения временного ряда. Авторегрессионный можно описать следующим образом [16]:
, (10)
где - коэффициенты авторегрессии, - белый шум, - порядок модели авторегрессии.
Для оценки коэффициентов авторегрессии используется метод наименьших квадратов (МНК) [16].
Модель авторегрессии сигнала позволяет вычислять оптимальный прогноз на заданное число шагов вперед, и давать оценку ошибки прогноза. Согласно [16] дисперсия ошибки прогноза на шагов вперед для модели авторегрессии порядка [16] оценивается следующим образов:
, (11)
где - дисперсия шума модели, - веса, рассчитывающиеся рекуррентно [16]:
, (12)
Идея алгоритма восстановления пропусков на основе модели авторегрессии заключается в прогнозировании значений временного ряда как вперед во времени, так и назад, с последующим оптимальным усреднением результатов.
Таким образом, необходимы две модели временного ряда, прямая во времени (прогнозирующая), описываемая выражением (10), и обратная (интерполяционная):
, (13)
Модель, прогнозирующая вперед (прямая), будет давать лучшие оценки в начале пропуска, а модель, прогнозирующая назад (обратная) - лучшие оценки в конце пропуска, так как точность прогноза падает с увеличением количества шагов прогнозирования, в соответствии в выражением (11).
Зная оценки значений в местах пропусков прямой и обратной модели и соответственно и дисперсии ошибки оценки прогноза прямой и обратной моделей, формула (11), для каждого момента времени и соответственно, можно применить оптимальное усреднение результатов прогноза, методом наилучшей линейной несмещенной оценки, чтобы получить оценку пропущенных значений:
, (14)
Алгоритм восстановления состоит из следующих шагов (рисунок 3): как в предыдущих алгоритмах сначала исходный временной ряд центрируется, путем вычитания среднего и заполнения пропусков нулевыми значениями. Далее оцениваются прямая и обратная модели. Оценка модели авторегрессии проводится методом перекрестной проверки, заключающегося в искусственном создании пропусков разной величины в сигналах, восстановления пропусков разными моделями и выбора такой модели, которая давала бы наименьшую ошибку на всех пропусках [17]. На третьем шаге выполняется оценка значений в местах пропусков обеими моделями. На последних шагах выполняется оптимальное усреднение результатов и прибавление среднего.
Рис.3. Блок-схема алгоритма восстановления пропусков на основе модели авторегрессии
Анализ результатов моделирования
В настоящей работе мы провели апробацию алгоритмов на реальных данных системы мониторинга состояния дамбы, города Бостон, Великобритания. В дамбу была установлена сеть многопараметрических датчиков, которые измеряют поровое давление (давление воды в порах почвы), температуру почвы и отклонение от вертикали (инклинометры). Дискретизация сигналов составляла 15 минут. В настоящей работе был проведён анализ датчиков порового давления.
Для моделирования было выбрано 14 сигналов, по 7 сигналов из различных точек установки в дамбе. Примеры трех сигналов для моделирования представлены на рисунке 4. Для получения точностных характеристик восстановления пропусков, в каждом из сигналов в случайных местах создавались искусственные пропуски величиной от 15 минут (1 отсчет) до 2 недель (1344 отсчета). Для всех сигналов, пропуск каждой величины генерировался по 1000 в случайные моменты времени.
Алгоритм на основе модели авторегрессии сравнивался с алгоритмом на основе метода "Гусеница-SSA" [12], алгоритмом на основе преобразования Фурье [13] и с линейной интерполяцией.
Рис.4. Сигналы для моделирования, формат даты ДД/ММ/ГГГГ, пунктирной рамкой выделен пример места, где создавался искусственный пропуск. Пунктирной рамкой выделены участки сигналов, представленные для демонстрации результатов на рисунке 5
Для расчета характеристик точности восстановления были выбраны метрики: - коэффициент детерминации (р-квадрат) и СКО (среднеквадратическое отклонение) ошибки оценки.
рассчитывается следующим образом:
, (13)
где - дисперсия ошибки оценки пропущенных значений, - дисперсия сигнала.
С уменьшением дисперсии ошибки оценки стремится к 1, с увеличением ошибки оценки стремится к отрицательным значениям. Значение , мы считали минимально допустимым.
На рисунке 5 представлены зависимости и СКО ошибки оценки соответственно для разных величин пропусков от 15 минут (1 отсчет) до 2 недель (1344 отсчета). Примерно одинаковую точность показывают алгоритмы восстановления на основе "Гусеница-SSA" и АР-модели, далее следует алгоритм на основе преобразования Фурье и наихудшая точность соответствует линейной интерполяции. Алгоритм на основе "Гусеница-SSA" и пересекает значение , для величины пропуска 755 отсчетов (~ 1,12 недели) с (мбар). АР-модели пересекает , для величины пропуска 672 (1 неделя) с (мбар). Для величины пропуска до 10 отсчетов (150 минут) все алгоритмы показывают примерно одну точность восстановления, это говорит о том, что для восстановления небольших пропусков (до 10 отсчетов) можно использовать линейную интерполяцию, на этапе синхронизации измерений. Значения ниже 0 не показаны (линейная интерполяция), так как соответствуют слишком низкой точности, не интересной для анализа.
Рис.5. Анализ точности восстановления: а) - зависимость коэффициента детерминации от величины пропуска для всех алгоритмов; б) - зависимость СКО ошибки оценки от величины пропуска для всех алгоритмов
На рисунке 6 представлены примеры восстановления пропусков величиной 384 отсчета (5 дней), для сигналов №1, №2 и №3. Вырезанный участок сигнала представлен на рисунке 3, пунктирная рамка. Как видно, алгоритмы восстановления на основе "Гусеница-SSA", АР-модели и преобразования Фурье сохраняют динамику сигнала и показывают примерно одинаковое поведение.
Рисунок 6 - Примеры восстановление пропусков участков сигналов, представленных на рисунке 3 пунктирной рамкой: а) - сигнал №1; б) - сигнал №2; в) - сигнал №3
Заключение
Предложенный подход основан на адаптивных алгоритмах восстановления пропусков в сигналах в условиях априорной неопределенности параметров сигналов. Преимущества такого подхода состоят в том, что алгоритмы адаптируются под поведение сигналов и не требуют предварительной оценки параметров сигналов.
Представленный алгоритм на основе модели авторегрессии авторами сравнивается с тремя другими алгоритмами восстановления пропусков: на основе метода "Гусеница-SSA", преобразования Фурье и линейной интерполяции. Моделирование алгоритмов восстановления пропусков было проведено на реальных данных дамбы города Бостон (Великобритания). Для пропусков величиной до 10 отсчётов все алгоритмы показали высокую точность, что говори о том, что для восстановления небольших пропусков достаточно использовать линейную интерполяцию. Алгоритм основе модели авторегрессии показал высокую точность восстановления, сравнимую с точность алгоритма на основе метода "Гусеница-SSA", и более высокую, чем алгоритм на основе преобразования Фурье.
Представленный подход и алгоритм могут быть применены и в других областях, где имеются задачи, связанные с улучшением качества измерений и полевыми измерениями, такие как: системы водоснабжения, метеорологические системы и другие.
Литература
1. Flood - Data and statistics // [Flood - Data and statistics] URL: http://www.preventionweb.net/english/hazards/statistics/.
2. Wohl. E. Inland Flood Hazards: Human, Riparian, and Aquatic Communities - Cambridge: Cambridge University Press, 2000.
3. Baars S., Kempen M. The Causes and Mechanisms of Historical Dike Failures in the Netherlands // Official Publication of the European Water Association. 2009.
4. FLOODsite project // [FLOODsite project] URL: http://www.floodsite.net/.
5. FloodControl 2015 // [FloodControl 2015] URL: http://www.floodcontrol2015.com/.
6. UrbanFlood project // [UrbanFlood project] URL: http://www.urbanflood. eu.
7. Krzhizhanovskaya V.V. et al. Flood early warning system: design, implementation and computational modules // Procedia Computer Science. 2011, Vol.14, - P.106-115.
8. Pyayt A. et al. Data-driven modelling for flood defence structure analysis // Comprehensive Flood Risk Management - Klijn & Schweckendiek. - Rotterdam, 2013.
9. Козионов А.П. Вейвлет-преобразование и одноклассовая классификация для мониторинга состояния дамб // Козионов А.П. [и др.]. Информационно-управляющие системы. - №4., Выпуск 71. - 2014.
10. J. Quevedoa и др. Validation and reconstruction of flow meter data in the Barcelona water distribution network // Control Engineering Practice. 2012, Vo1.8, № 6. - P.640-651.
11. A. M. Moffata и др.comprehensive comparison of gap-filling techniques for eddy covariance net carbon fluxes // Agricultural and Forest Meteorology. - №147., Выпуск 3. - 2006.
12. J. Simm и др. Interpreting Sensor Measurements in Dikes - Experiences from Urbanflood Pilot Sites // Comprehensive Flood Risk Management - Klijn & Schweckendiek (eds). 2012.
13. H. Spath One-Dimensional Spline Interpolation Algorithms // MA: AK Peters Wellesley, 1995.
14. A. Moghtaderi, P. Borgnat, P. Flandrin Gap-filling by the empirical mode decomposition // 2012 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2012. - P.3821-3824.
15. C. Lorenc,F. Rawlins Why does 4D-Var beat 3D-Var? // Quarterly Journal of the Royal Meteorological Society. 2005, Vol.131., № 613
16. D. Kondrashov, Y. Shprits, M. Ghil Gap filling of solar wind data by singular spectrum analysis // Geophysical research letters. 2010, Vol.37, № 15 - P.1-6.
17. K. Hocke,N. Kдmpfer Gap filling and noise reduction of unevenly sampled data by means of the Lomb-Scargle periodogram // Atmos. Chem. Phys. 2009, Vol.9, - P.4197-4206.
18. Н.Э. Голяндина. Метод "Гусеница"-SSA: анализ временных рядов: учебное пособие. - СПб, 2004.
19. N. Golyandina,E. Osipov. The “Caterpillar”-SSA method for analysis of time series with missing values // Journal of Statistical Planning and Inference. 2007, Vol.137, № 8. - P.2642 - 2653.
20. Georg Box,Gwilym Jenkins. Time series analysis: Forecasting and control // San Francisco: Holden-Day, 1970.
21. L. Kavalieris. The estimation of the order of an autoregression using recursive residuals and cross-validation // Journal of Time Series Analysis. 1989, Vol.10. - P.271-281.
Размещено на Allbest.ru
Подобные документы
Особенности физического и инфологического проектирования баз данных. Этапы и специфика создания электронного каталога для учета пропусков учащихся. Анализ области систематизации информации. Разработка программы-клиент для взаимодействия с базой данных.
дипломная работа [484,9 K], добавлен 14.07.2014Особенности и параметры процесса защиты информации. Оценка полноты и достоверности информации. Методы восстановления пропусков в массивах данных с использованием регрессионного моделирования. Методы структурирования данных в условиях неопределенности.
курсовая работа [89,1 K], добавлен 13.07.2011Заданный стационарным временным рядом случайный процесс, способы его моделирования посредством применения авторегрессии. Оценка эффективности использования двух способов нахождения оценок параметров модели. Модели авторегрессии скользящего среднего.
курсовая работа [1,0 M], добавлен 27.04.2015Методы количественного и качественного оценивания систем, моделирование и разработка концептуальной модели, показатели пропускной способности, достоверности передачи данных. Интеграция систем ситуационного, имитационного и экспертного моделирования.
курсовая работа [240,3 K], добавлен 24.06.2010Архитектура и функции СУБД. Инфологическая модель данных "Сущность-связь". Ограничения целостности. Характеристика связей и язык моделирования. Манипулирование реляционными данными. Написание сервера на Java.3 и приложения-клиента на ActoinScript 3.0.
курсовая работа [935,3 K], добавлен 09.07.2013Область применения – учебные учреждения, где ведется учет пропусков занятий студентами. Технические характеристики разрабатываемого проекта: описание основных типов входных и выходных данных, алгоритм программы. Технико-экономические показатели проекта.
курсовая работа [906,3 K], добавлен 28.12.2010Описание формальной модели алгоритма на основе рекурсивных функций. Разработка аналитической и программной модели алгоритма для распознающей машины Тьюринга. Разработка аналитической модели алгоритма с использованием нормальных алгоритмов Маркова.
курсовая работа [1,5 M], добавлен 07.07.2013Понятие и классификация систем передачи данных. Характеристика беспроводных систем передачи данных. Особенности проводных систем передачи данных: оптико-волоконных и волоконно-коаксиальных систем, витой пары, проводов. Оценка производителей аппаратуры.
курсовая работа [993,0 K], добавлен 04.03.2010Построение и анализ модели работы магистрали передачи данных. Формализация концептуальной модели, создание моделирующего алгоритма. Компьютерная программа, имитирующая передачу данных по двухканальной магистрали для получения статистических результатов.
курсовая работа [294,0 K], добавлен 17.01.2015Изучение модели операционной системы. Понятие и общая характеристика тупиков, алгоритм их обработки и предотвращения. Рассмотрение примеры графа распределения ресурсов с тупиком и с циклом без него. Правила восстановления ресурсов на выходе из системы.
презентация [1,3 M], добавлен 24.01.2014