Автоматизация и ускорение нахождения оптимальных параметров модели SIR+A и проведение сравнительного анализа "Интенсивности заражения"
Актуальность и основные модели распространения инфекций. Обзор имеющихся подходов к вычислению оптимальных параметров в моделях эпидемических ситуаций. Вывод графиков и результатов по поликлиникам. Группировка данных заболеваемости по округам Москвы.
Рубрика | Программирование, компьютеры и кибернетика |
Вид | дипломная работа |
Язык | русский |
Дата добавления | 04.08.2018 |
Размер файла | 3,6 M |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru/
Оглавление
Введение.
1. Обзор проблематики и постановка задач.
1.1 Актуальность и основные модели распространения инфекций.
1.2 Модель SIR+A
1.3 Обзор имеющихся подходов к вычислению оптимальных параметров в моделях эпидемических ситуаций
1.4 Постановка задачи
1.5 Выбор методов решения
2. Описание решений
2.1 Возможности программы для решения задач
2.2 Детализация функционала программ
2.2.1 Этап работы с Excel
2.2.2 Этап вывода данных реальной заболеваемости
2.2.3 Модель и основной алгоритм
2.2.4 Вывод графиков и результатов по поликлиникам
2.2.5 Группировка данных заболеваемости по округам Москвы
2.2.6 Реализация поиска пяти параметров «л, I, R, µ, г»
3. Результаты и применение
Заключение.
Список используемой литературы
Приложение
Приложение 1.Образец Excel таблицы
Приложение 2. Пример графика данных реальной заболеваемости
Приложение 3. Код рекуррентных соотношений
Приложение 4. Пример работы программы для одной поликлиники
Приложение 5. Фрагмент автоматически полученной таблицы в Excel
Приложение 6. Коэффициенты корреляции и сравнительный график
Приложение 7. Сводная таблица и сравнительный график для округов Москвы по 2016 году
Приложение 8. Результат работы программы по пяти параметрам для Москвы
Приложение 9. Свидетельство о государственной регистрации программы
Введение
Научно-техническая проблема, которая ставится в данной работе, заключается в получении оценки параметров модели эпидемической ситуации. Существует большое разнообразие моделей, которые могут описывать распространение инфекций, а также используются различные методы нахождения оптимальных параметров. Основными математическими инструментами в области эпидемиологии являются SIR-подобные модели, в каждой из которых добавляются новые факторы или изменяется точность оценок модели. Что же касается нахождения параметров модели с использованием данных реальной статистики, то распространенным является метод наименьших квадратов отклонений реальных данных от данных модели. Таковы классические подходы к прогнозированию и оцениванию эпидемических ситуаций.
С развитием вычислительной техники, модели распространения инфекций стали усложняться и уточняться благодаря возможности обработки большого объема данных. Повысилась точность и надежность прогнозов. Данные, полученные с помощью моделирования, могли служить основанием для изменения мер по защите населения от эпидемий различных заболеваний, а также для определения стратегий финансового обеспечения сферы здравоохранения. В настоящее время эпидемические модели применяются для прогнозирования различных заболеваний, таких как туберкулез, ОРВИ и грипп, ВИЧ, гепатит В и других.
Математические модели эпидемических ситуаций основаны на теории дифференциальных уравнений. Все модели можно поделить на стохастические и детерминированные. Дифференциальные уравнения отражают динамику изменения численности подгрупп населения, на которые оно условно делится при рассмотрении каждого конкретного заболевания. Имеются работы, расчеты в которых применяется аналитический подход, но также имеются исследования с использованием средств программирования. Данная работа опирается на математическую модель эпидемической ситуации SIR+A, в исходном исследовании которой оценки были найдены с помощью возможностей Excel, что являлось лишь отчасти автоматизированным и нахождение параметров было затруднительным. Конкретно в данной работе основную часть занимает подбор оптимальных параметров модели SIR+A, которые могли бы адекватно отразить реальную ситуацию заболеваемости ОРВИ и гриппом в городе Москве. При помощи статистических методов и математического моделирования произведен расчет параметров эпидемической ситуации для разных районных территорий и округов города Москвы.
Действительно, применение и анализ различных моделей заболеваемости и распространения болезней в мегаполисе имеет колоссальное значение, ведь при большой плотности населения и заболевания могут переходить в масштабные эпидемии. Важно построить оптимальную модель и научиться предсказывать динамику изменения заболеваемости при вариации тех или иных факторов.
Цель данной работы: автоматизация и ускорение нахождения оптимальных параметров модели SIR+A и проведение сравнительного анализа «Интенсивности заражения» в период фоновой заболеваемости по районным территориям и округам Москвы.
Следующие задачи должны быть решены: во-первых, выбрать оптимальные средства программирования с учетом особенностей задачи. Во-вторых, осуществить интегрированную работу исходных данных (в форме таблиц Excel) и средств языка программирования, а также переложить математические формулы и алгоритмы на язык программирования. В-третьих, реализовать визуализацию данных и свести все результаты в наглядные для сравнения таблицы. В-четвертых, обработать результаты и сделать выводы о статистике, о целесообразности применения модели, о заболеваемости в конкретных поликлиниках и округах.
Новизна данной работы в том, что теперь для прогнозирования эпидемий будут найдены параметры, дающие лучшее приближение эпидемической ситуации в конкретной местности. С помощью найденных параметров, может осуществляться корректное прогнозирование эпидемической ситуации, отражающей реальную заболеваемость в каждой конкретной местности. Данная модель и алгоритм поиска будут полностью автоматизированы с помощью языка программирования Python, что позволит обработать 57 таблиц со статистическими данными быстро и эффективно, получить наглядные результаты.
Планируемые результаты исследования заключаются в получении кода программ, которые будут реализовывать вывод визуализаций реальных данных, алгоритм нахождения оптимальных параметров, заполнение таблиц с найденными параметрами, сравнительные и результирующие иллюстрации данных заболеваемости и оптимальных параметров. Также планируется провести сравнение между 2016 и 2017 годами и подсчитать коэффициенты корреляции для различных комбинаций параметров; сформулировать основные тенденции и составить руководство по использованию данной программы; составить методическое руководство для внедрения данного исследования в образовательный процесс; зарегистрировать данную программу в Реестре программ для ЭВМ.
В первой главе данной работы определяется актуальность данного исследования, описываются основные имеющиеся эпидемические модели, рассматриваются подходы к нахождению параметров, ставится задача и обосновываются средства для решения задач.
Во второй главе конкретизируются этапы решения технической задачи, приводятся примеры и описание способов решения.
В третьей главе приведены основные результаты и сравнительный анализ.
1. Обзор проблематики и постановка задач
1.1 Актуальность и основные модели распространения инфекций
Развитие науки и компьютерных технологий способствовало внедрению математического моделирования в различные прикладные науки и сферы деятельности. Выяснилось, что распространение болезней и развитие эпидемий также подчиняется математическим законам и может быть выражено через некоторые соотношения на языке математики. Возможность собирать и обрабатывать большие объемы статистической информации обеспечила более точный анализ и позволила сравнивать реальные и модельные данные. Таким образом, как только математический и технический аппарат были достаточно развиты, а именно в 20-30-ых годах ХХ века, появилось множество различных эпидемических моделей.
В современном мире многие инфекционные заболевания удалось проконтролировать, обеспечить своевременное вакцинирование и уменьшить риски массовых эпидемий, но раньше погибало колоссальное количество людей от различных заболеваний. Развитие медицины и практики вакцинации в корне изменило ситуацию, особенно когда появились прогнозы эпидемий и надлежащее количество вакцин было готово в срок, назначались грамотные профилактические меры. ОРВИ и Грипп не являлись причиной массового вымирания населения, тем не менее государства несли огромные экономические убытки от неработающего в данные периоды большого количества людей. Однако следует отметить, что текущая ситуация во всем мире такова, что наблюдается повсеместная миграция людей, вирусы могут перемещаться с континента на континент быстро и беспрепятственно. Глобализация и перемещение населения развивающихся стран с плохими санитарно-гигиеническими условиями приводит к распространению серьезных болезней. Более того, с развитием генной инженерии начали появляться новые модифицированные вирусы. Данная проблема в настоящее время является актуальной, по сей день важно уметь моделировать эпидемические процессы и прогнозировать исходы.
В целом, все модели отражают процесс инфицирования и изменения состояний людей с течением времени. Модели распространения заболеваний различаются по срокам наблюдений и прогнозов, по охвату рассматриваемой местности и по целям исследований. Рассмотрим данные типы моделей подробнее.
Эпидемиологический прогноз может выполняться для различных сроков и целей. Краткосрочным считается прогноз на несколько недель вперед и бывает полезен для оперативного вмешательства и определения вспышек заболеваний. Среднесрочный прогноз от 2 до 6 месяцев часто на практике оказывается наиболее полезным. Его точность позволяет использовать данный прогноз, времени оказывается достаточно для проведения подготовительных и превентивных мероприятий. Долгосрочные прогнозы могут проигрывать в точности, но для оценки количества вакцин и оснащения поликлиник он полезен и зачастую необходим. Подробнее различные типы прогнозов описаны в работе Кондратьева М. А. [1].
Все имеющиеся модели условно можно поделить также по принципу охвата местности, для которой проводится исследование. Модели бывают локального характера и модели, охватывающие целые государства. Последние учитывают миграцию и перемещение людей из города в город рамках одного государства. Примером модели, учитывающей миграции, является модель Барояна-Рвачева [2].
Цели, ради которых строятся модели, очень разнообразны, например:
-- получение прогноза,
-- добыча информации о количестве вакцин,
-- решение о принятии мер в области здравоохранения,
-- оценка параметров модели с учетом реальных данных для уточнения прогнозов.
Все основные модели, которые будут разобраны в данном обзоре, можно применить для ОРВИ и гриппа. Грипп и ОРВИ занимают ведущее место среди инфекционных болезней человечества и, несмотря на все проводимые противоэпидемические мероприятия, заболеваемость ими не имеет тенденции к снижению как в России, так и за рубежом. Поэтому многие из моделей были предложены специально для анализа распространения гриппа. С другой стороны, техники прогнозирования гриппа подходят непосредственно или могут быть легко применены для других инфекций, передающихся воздушно-капельным и контактно-бытовым путем.
Моделирование эпидемиологических и социальных процессов отличается от естественно-научных моделей. Для того чтобы построить адекватную модель, необходимо понимать, что изначальные данные могли быть неточными, и учитывать этот фактор. Отсутствие четкого математического описания переменных и параметров также может внести свои коррективы в создание модели и повлиять на ее точность. Важно принимать во внимание, что имеется вероятность отклонения статистических и реальных значений, ошибок, полученных в результате сбора статистики.
Рассмотрим основные модели распространения инфекций.
SIR Модель.
Классической SIR-модель (Susceptible-Infected-Removed) была предложена У. Кермаком и А. Маккендриком в 1927 г.[3]. Модель эпидемии описывается с помощью системы дифференциальных уравнений. Популяция делится на три группы: восприимчивые ??(??), инфицированные ??(??), невосприимчивые ??(??):
-- ??(??) обозначает неинфицированных людей или предрасположенных к заболеванию,
-- ??(??) обозначает инфицированных людей (больных), способных распространить заболевание,
-- ??(??) обозначает выздоровевших, либо умерших людей.
??+ ?? + ?? = ???????????????? = ??.
SIR-модель может быть выражена следующим:
где л - коэффициент, показывающий скорость контакта, учитывающий вероятность получения болезни в случае контакта восприимчивого с больным; ?? = 1/V, где V - время болезни, скорость выздоровления. Начальные условия в момент времени ?? = 0: ??(0) ? 0, ??(0) ? 0, ??(0) ? 0.
Правая часть уравнения (1.1) описывает уменьшение популяции восприимчивых людей за счет заражения больными людьми восприимчивых. Первое слагаемое правой части уравнения (1.2) описывает увеличение популяции инфицированных людей за счет заражения восприимчивых; второе слагаемое описывает уменьшение популяции инфицированных людей за счет выздоровления или смерти. Правая часть уравнения (1.3) показывает увеличение количества невосприимчивых людей за счет выздоровления или смерти инфицированных. Стоит отметить, что правые части уравнений (1.1), (1.2), (1.3) в сумме дают ноль, важное свойство данной модели.
На данный момент существует огромное количество усложненных и видоизмененных SIR-моделей, в которых добавляются в рассмотрение новые факторы. Рассмотрим примеры таких моделей.
SIR модель с рождаемостью и смертностью.
Для некоторых заболеваний оказывается важным учитывать приток в популяцию новых индивидов, восприимчивых к инфекции. Для этого добавляют в рассмотрение рождаемость и смертность. Пусть темпы одинаковы и описываются коэффициентом м. Уравнения SIR модели будут выглядеть так:
Пусть 1/?? - средняя продолжительность жизни. Модель представима набором следующих дифференциальных уравнений:
C начальными условиями в момент времени ?? = 0: ??(0) ? 0, ??(0) ? 0, ??(0) ? 0.
Модель SIS с учетом рождаемости и смертности
Модель SIS можно получить из модели SIR если допустить, что излечившиеся вновь могут заразиться. Это особенно актуально для ОРВИ с большим разнообразием типов вирусов.
Без уравнения, описывающего прирост выздоровевшей части населения, получаем систему:
Модель SIRS
Данная модель подразумевает потерю иммунитета через некоторый промежуток времени. Дифференциальные уравнения принимают такой вид:
где g -- средняя скорость утраты иммунитета.
Модель SEIS
Модель SEIS отличается от модели SIS тем, что в SEIS вводится дополнительная медико-социальная группа людей: заболевшие индивиды, болезнь которых находится в скрытом состоянии. Излечившиеся при этом снова становятся восприимчивы к вирусу.
Система имеет вид:
где Z - средний уровень рождаемости, - период инкубации.
Модель SEIR
Модификацией вышеупомянутой модели является модель, где к инфицированным в скрытом состоянии добавляется группа людей, которые приобрели иммунитет к инфекции r(t). В этом случае уравнения выглядят так:
Разберем подробно на каких предположениях основана данная модель и ее модификации, какие ограничения она имеет:
-Модели действительны только для достаточно больших популяций,
-Необходимо однородное смешивание популяций,
-Все индивиды должны считаться однотипными,
-Не учитывается случайный характер эпидемий, так как модели детерминированные.
Следует отметить, что чем больше факторов учитывается в модели, тем более точным получается анализ. Классическая SIR модель позволяет получать лишь оценки для данных показателей, иногда тот факт, что она не учитывает множество важных моментов и случайный характер явлений, может приводить к существенным ошибкам.
Тем не менее, ученые О.В. Бароян и Л.А. Рвачев [4] в 1960-1970-х годах сумели получить 80% точность прогнозов эпидемий на территории Советского Союза, используя модифицированную SIR модель, которую они разработали. Разберем ее подробнее.
Основополагающие идеи модели Барояна-Рвачева:
В основе любого инфекционного процесса лежит динамика изменений двух параметров: динамика активности патогенной популяции, то есть динамика активности вируса и динамика защитных сил организма каждого отдельно взятого человека. Для того, чтобы оценивать текущую ситуацию, необходимо как-то оценивать данные параметры, то есть ввести меру. Для патогенной популяции берется ее численность, или величина ей пропорциональная. Причем она зависит от времени - ц(t). Что касается меры защиты, вводится величина, которая фиксирует отклонение активности патогенной популяции в эталонной среде и в текущем положении - ш(t). Тогда инфекционный процесс можно описать изменением этих двух величин во времени. Их легко представить на плоскости. Тогда каждый человек и его состояние в данный момент будет как материальная частица, находящаяся на этой плоскости на координатах (ц, ш).
Рис.1 Распределение индивидов на плоскости по осям ц и ш
Соответственно изменения во времени состояния каждого отдельного человека будут выглядеть как непрерывная траектория на этой плоскости.
Если представить множество индивидов на данной плоскости, то они приблизительно равномерно заполнят данную плоскость. Если учесть изменение и движение каждой частицы, то наглядной является аналогия с движением сплошной среды, например, воды. Таким образом для достаточно большого количества людей становится возможным приводить данные аналогии и использовать математический аппарат механики сплошных сред.
Пусть дан массив людей Р в какой-то момент времени t. Разместим их по точкам плоскости (ц, ш) в зависимости от их состояния в момент t. Тогда распределение x (ц, ш, t) представляет собой численность людей, которые в момент t имели одинаковое состояние (ц, ш). Если известны значения x (ц, ш, t) для всех точек плоскости, то это означало бы знание других необходимых эпидемиологических величин.
Простейшая модель (4) эпидемического процесса для населения Р:
где t - календарное время, - индивидуальное время, прошедшее с момента заражения, - плотность в момент t распределения по здоровых людей, где уровень защиты в момент получения инфекции, - плотность в момент времени t распределения по людей, которые заразились в момент t -, и крайние левая и правая границы по области S, которая определяется как та часть плоскости ф, внутри которой люди являются инфицирующими
) -- кривые, представляющие собой соответственно нижнюю и верхнюю границы области S на плоскости (ф, ), л -- коэффициент пропорциональности, который интерпретируется как средняя частота передачи инфекции. Данная модель является локальной и применима в рамках одного города, так как принимается во внимание однородное перемешивание людей.
Но модель была адаптирована для большой территории Советского Союза. Для этого модель (4) построили для каждого города отдельно, так что для системы из n городов ввели 2n множеств (индекс i означает номер города в некоторой единой нумерации), а затем объединили эти модели в единую систему путем учета переходов между множествами различных городов. Эти переходы в случае гриппа обусловлены, очевидно, обменом населения между городами в результате функционирования транспортной сети.
Чтобы обобщить модель, в правые части внесли слагаемые, которые для каждой пары городов i, j описывают пассажирооборот за время t между этими городами лиц данного типа.
Через обозначена вероятность для лица, принадлежащего некоторому типу А, перейти за время от t до t +в некоторый другой тип В. Тогда вероятность переходов, связывающих города в единую систему, можно записать в следующем виде:
где -- интенсивность пассажирооборота между городами i и j в реальной транспортной сети; -- население города i, -- коэффициенты пропорциональности.
Тот факт, что при моделировании распространения эпидемии по территории страны авторы пренебрегают сельскими местностями, обоснован, так как:
-- основной ущерб от эпидемии гриппа заключается в ее социально-экономических последствиях, что проявляется почти всецело лишь в урбанизированных ареалах
-- по городам мы можем располагать необходимыми для дальнейшей работы и для проверки модели данными о ежедневной заболеваемости.
С учетом транспортных сетей и перемещений населения получаем для n территорий следующие модификации модели (4):
Остановимся подробнее на данной модели локального характера для дальнейшего сравнения. Эта модель в упрощенном виде запишется следующим образом: так как , то
где доля восприимчивых к болезни,начальная заболеваемость, средняя частота передачи инфекции, ) - основные параметры, характеризующие эпидемический процесс.
Для приближенных расчетов были предложены следующие формулы для локальной модели, которая сейчас представляет для нас наибольший интерес.
распределение начальной заболеваемости, p -- население местности, доля восприимчивых к болезни, средняя частота передачи инфекции.
С помощью данной модели, зная основные параметры ), можно построить оценку количества заболевших людей.
Выше были разобраны основные модели эпидемических ситуаций. Отдельного рассмотрения требует модель, на которой основана моя программная реализация.
1.2 Модель SIR+A
В основе данной модели лежит система дифференциальных уравнений SIR модели. От системы дифференциальных уравнений проделан переход к рекуррентным соотношениям и в рассмотрение добавлен фактор агрессивности внешней среды А.
где расчетная заболеваемость за текущую неделю, количество невосприимчивых к болезни на начало текущей недели, количество больных на начало текущей недели, - интенсивность заражения, µ - интенсивность выздоровления, г - скорость потери иммунитета, А - агрессивность внешней среды, r - среднее число людей, приобретающих иммунитет в течение текущей недели (включая вакцинированных), t = 1 неделе, N - население изучаемой местности, N = I+R = const.
С помощью данной модели (5) находятся оценки для количества заболевших людей для текущей недели, а также оценки для больных и невосприимчивых людей. В работе [5] приведен пример вычисления данных оценок при найденных ранее оптимальных параметрах. Но в данной работе [5] параметры вычисляются практически вручную, с помощью пакета «Поиск решения» в Excel. Программная реализация данной модели позволяет получать оценки и параметры автоматически.
Ввиду того, что моей текущей задачей является вычисление оптимальных параметров с помощью модели и реальных данных, рассмотрим некоторые другие подходы, примененные в этой сфере.
1.3 Обзор имеющихся подходов к вычислению оптимальных параметров в моделях эпидемических ситуаций
Одними из наиболее распространенных методов оценки параметров математических моделей являются метод наименьших квадратов, его различные модификации и метод нахождения оценок с помощью функции максимального правдоподобия. Данные методы часто применяются при обработке экспериментальных данных, создании и оценке экономических и социальных моделей.
Стандартным методом нахождения оценок параметров является решение оптимизационной задачи на минимум целевой функции. Этот метод позволяет решать задачу подбора параметров функции для приближённого описания зависимости величины результативного признака от величины факторных признаков, оказывающих влияние на результативный признак. В качестве целевой функции выступает сумма квадратов отклонений расчетных значений заболеваемости от ее фактических значений или иная ее модификация. Осуществляется перебор значений параметров из допустимых диапазонов. Таким образом, оптимальными могут считаться те параметры, при которых достигается минимум целевой функции.
Такой метод применялся в работе, посвященной анализу и математическому моделированию распространения ВИЧ-инфекции [6] для вычисления параметров усложненной SIR модели. Вид целевой функции может быть несколько иным, и представлять собой уравнение для коэффициента передачи инфекции. Подобная оптимизационная задача решается и в работе Мельниченко О.А. и Романюхи А.А., в которой разбирается модель эпидемии туберкулёза и оценка параметров данной модели [7]. Они составляют функционал, который необходимо минимизировать и задают интервал, в котором меняется основной параметр - коэффициент трансмиссии. Решая данную задачу минимизации, они находят оптимальные параметры для каждого из регионов России по эпидемической ситуации туберкулеза.
Иной подход к нахождению параметров SIR модели использовался в работе [8] A. S. Talawar и U. R. Aundhakar, где нахождение параметров SIR модели осуществляется с помощью предположений об апостериорных распределениях параметров, найденных с помощью функции максимального правдоподобия и байесовского анализа с методом Монте-Карло по схеме Марковской цепи (MCMC).
Данные распространенные подходы отличаются по сложности своей реализации, метод наименьших квадратов, как правило, проще реализуем, чем метод Монте-Карло. Но во втором случае использовалась стохастическая SIR модель, что делало оценки более приближенными к реальным данным. Алгоритмы байесовского подхода к тому же сопровождаются большим объемом вычисления и подсчет оценки может занимать от нескольких часов до нескольких дней на современной технике.
Исходя из имеющихся моделей распространения инфекций и существующих методов нахождения оптимальных параметров, можно оценить тот метод, который использовался в данной работе. Разберем подробно в чем состоит моя задача в рамках этого исследования.
1.4 Постановка задачи
Пусть имеется модель SIR+A [5; 9], предложенная Гришуниной Ю.Б. и Контаровым Н.А., описанная выше.
Если известны все параметры модели, такие как л, µ, г, А и r для каждого временного интервала, могут быть получены соответствующие оценки для - количества заболевших в начале недели t. А имеющиеся оценки позволят прогнозировать поведение эпидемии и проводить сравнительный анализ. Рассмотрим подробнее подбор параметров. Все параметры модели SIR+A можно условно поделить на две группы.
Таблица 1.
Деление параметров модели SIR+A
Постоянные |
Вариативные |
|
- интенсивность зараженияµ - интенсивность выздоровленияг - скорость потери иммунитета |
А - агрессивность внешней средыr - среднее число людей, приобретающих иммунитет |
- интенсивность заражения, параметр, показывающий среднее число людей, которых может заразить один больной в течение одной недели. Этот параметр в первую очередь определяется частотой контактов, а также силой и свойствами возбудителя инфекции. То есть, если контагиозность близка к 100%, то приближённо равняется среднему числу контактов больного человека со здоровыми людьми в единицу времени. Под контактом в данном случае понимается время, достаточное для передачи инфекции. Таким образом, может считаться постоянным параметром, характеризующим местность и уровень жизни в регионе, так как частота контактов зависит от плотности населения, от транспорта и от прочих социально-экономических факторов. Данный параметр не может быть взять из справочников, так как его вычисляли только для больших территорий и данный параметр желательно вычислять с периодичностью в несколько лет. В идеальном случае данный показатель должен вычисляться на основе статистических данных для небольших территорий, округов или районов и пересчитываться через определенный промежуток времени.
Параметр µ - интенсивность выздоровления, величина, обратная средней продолжительности болезни. Это стандартное значение для ОРВИ и гриппа, полученное из статистических наблюдений. Данный параметр может зависеть от штаммов вирусов, но для заболеваемости населения конкретной местности, где могут быть представлены различные штаммы, данный параметр является усредненным и постоянным.
Параметр г - скорость потери иммунитета, величина, обратная средней продолжительности сохранения иммунитета к данному заболеванию. Данная величина также берется из медицинских справочников и в целом является постоянной.
Параметры А и r напрямую зависят от этапа эпидемической ситуации и определяют её дальнейшее развитие. А - среднее число зараженных от внешних источников в единицу времени. Параметр r - показывает среднее число людей, приобретающих иммунитет в результате различных профилактических мер. Поэтому для каждого этапа они будут разные, для вспышек заболеваний и для периода фоновой заболеваемости. Потому они и являются вариативными.
Перейдем непосредственном к главной задачи данной работы. Моя задача - оценить параметры эпидемической ситуации для различных районных территорий и округов города Москвы в период фоновой заболеваемости ОРВИ и гриппом. Период фоновой заболеваемости - это время в летний период с 24 по 33 неделю года. Для данного периода будем считать, что А и r равны нулю. Основной параметр, который является предметом нашего интереса - интенсивность заражения . Дополнительным исследованием также будет проверка для данной местности актуальности постоянных параметров µ и г.
С помощью соотношений данной модели и таблицы понедельной заболеваемости ОРВИ и гриппом для 57 поликлиник Москвы, нужно написать программный код, который будет обрабатывать данные и выводить оптимальные параметры модели. Для этого нужно реализовать считывание данных из таблиц, основной алгоритм поиска минимума целевой функции и подбор параметров, минимизирующих ее; проделать группировку данных по округам Москвы и повторить аналогичный анализ для округов; вывести все необходимые данные в таблицы и построить графики, сравнивающие модель и реальные данные заболеваемости; проделать группировку по всей Москве и по округам и найти в дополнение к предыдущему найти параметры µ и г.
1.5 Выбор методов решения
Для реализации данной программы был выбран язык программирования Python. Данные плюсы и преимущества языка повлияли на выбор программного средства.
- Специальные библиотеки данного языка осуществляют синхронизацию и работу с таблицами Excel и упрощают работу с большим объемом данных,
- Возможность работать в интерактивной оболочке IPython Notebook и выводить таблицы и графики по ходу исследования, редактировать и изменять код,
- Удобство работы с массивами данных,
- Создание отчетов и итоговых таблиц.
Ввиду того, что целевая функция состоит из рекуррентных соотношений, стандартные методы нахождения минимума здесь не применимы. Поэтому минимум был найден путем перебора параметров из допустимых диапазонов.
Все вышеперечисленные факторы повлияли на выбор языка программирования. Конечно, есть низкоуровневые языки, в которых при подробном написании вычисления производились бы гораздо быстрее, но в моем случае скорость не играла решающей роли.
Результаты по Главе 1
1. Приведен обзор основных эпидемических моделей
2. Разобраны способы нахождения параметров модели на основе статистических данных
3. Описана подробно модель, на которой основана программная реализация
4. Сформулированы задачи
5. Обоснован выбор языка программирования
2. Описание решений
2.1 Возможности программы для решения задач
Исходя из всех поставленных задач, данное исследование можно поделить на три основные части. Было реализовано три подзадачи, при различных программы для подсчета параметров. Помимо самого написания программ, были созданы сопутствующие документы и видео по использованию данной программы.
Таблица 2.
Реализация трех подзадач.
Для параметра «Интенсивность заражения- л» |
Для трех параметров«л, I, R» |
Для пяти параметров«л, I, R, µ, г» |
|
ѕ Для каждой из 57 поликлиник города Москвы ѕ Для 11 округов Москвы |
ѕ Для каждой из 57 поликлиник города Москвы ѕ Для 11 округов Москвы |
ѕ Для суммированных данных по Москве |
Каждая из трех программ имеет следующие общие возможности:
1. Программы открывают все Excel таблицы из указанной пользователем папки и выгружают из каждой таблицы все необходимые для анализа данные. Создают новые таблицы и объединяют их в единый массив данных.
2. Данные заболеваемости нормируются на население в 100000 человек.
3. Для каждой таблицы из созданного массива строятся графики реальных данных понедельной заболеваемости с учетом фонового 3-сигма диапазона, графики заболеваемости с 24 по 33 неделю, выводится название округа и поликлиники, среднее число заболевших в фоновый период для 2016 и 2017 годов.
4. Написаны функции для системы рекуррентных соотношений SIR+А модели, функции для смоделированного числа заболевших от оптимальных найденных параметров.
5. Задается целевая функция, использующая массив реальных данных и массив данных, вычисленных по рекуррентным соотношениям. Реализуется нахождение минимума целевой функции с помощью перебора параметров (один, три или пять параметров в соответствии с подзадачей) из допустимых диапазонов.
6. Найденные параметры, при которых достигается минимум, записываются в сводные таблицы по 2016 и 2017 годам, которые выводятся в IPython Notebook, а также сохраняются в отдельные файлы Excel.
7. Строятся сравнительные графики модельной заболеваемости от оптимальных параметров и реальной заболеваемости в фоновый период для 2016 и 2017 годов.
8. Строится график, показывающий различия между параметром л по всем 57 поликлиникам в 2016 и 2017 годах.
9. Считаются коэффициенты корреляции от найденных параметров.
10. Из исходных таблиц суммируются данные по округам Москвы и считаются те же параметры и проделываются все пункты с 5-9 только для округов.
2.2 Детализация функционала программ
2.2.1 Этап работы с Excel
В начале исследования я получила 57 таблиц с данными заболеваемости из поликлиник. Для того, чтобы реализовать автоматизированное считывание данных из таблиц, в таблицах не должно быть никаких расхождений, лишних строк, отступов, измененных названий колонок, несоответствующих формату данных. Поэтому перед началом программирования мне нужно было привести таблицы к единому виду, так как они были заполнены по-разному, несмотря на то что давался единый образец (сложности сбора статистической информации).
Моей задачей являлось записать данные понедельной заболеваемости за 2016 и 2017 годы, количество обратившихся в поликлинику людей в каждый из годов, округ, номер и адрес поликлиники. Исходная таблица имела следующий вид, пример приведен в приложении. (Приложение 1)
Данная задача решалась с помощью следующих возможностей языка Python: glob.glob (адрес пути) возвращает список путей, соответствующих шаблону данного пути. В моем случае список путей ко всем Excel файлам в указанной пользователем папке. Pandas.read_excel - считывает таблицу в pandas dataframe. С помощью поиска по названию колонок pandas dataframe создается запись только необходимых для анализа данных и создание удобного массива данных.
После считывания всех 57 таблиц был получен большой массив данных, состоящий из новых таблиц, заполненных только необходимой информацией. Обращаться к таблице поликлиники стало возможным через обращение к элементу массива. Обращение к отдельным столбцам конкретной поликлиники стало возможным через указание двух индексов массива: первый относился к таблице из массива, второй к столбцу выбранной таблицы. Таким образом был получен удобный способ по работе со всеми необходимыми столбцами каждой из 57 таблиц. Этот подход обобщает работу с 57 разными файлами и позволяет производить анализ сразу для всех однотипных элементов. К тому же разработанный алгоритм удобен тем, что файлов Excel таблиц в исходной папке может быть сколько угодно, и с любым количеством файлов программа будет работать корректно.
2.2.2 Этап вывода данных реальной заболеваемости
Для того, чтобы сравнивать между собой данные и результаты по каждой из поликлиник, в которых различное количество обратившихся за помощью людей, была проделана нормировка данных на 100000 человек. То есть, каждая строка столбца заболевших людей умножалась на 100000 и делилась на количество обратившихся в данную поликлинику. Видеть ситуацию реальной заболеваемости - важный этап любого анализа. По виду графика понедельной заболеваемости для одного года можно определить, типичная ли ситуация заболеваемости была в данной конкретной местности, были ли выбросы и ошибки сбора статистических данных. Исходя из общих наблюдения, ситуация заболеваемости ОРВИ и гриппом имеет сезонные пики. Приблизительно в конце осени каждого года и в конце зимы начале весны наблюдается резкое увеличение количества больных. В середине лета, как правило, можно наблюдать ситуацию фоновой заболеваемости, нет фактора агрессивности внешней среды. Этот период и является предметом изучения в данной работе. Параметр интенсивность заражения в этот период связан больше с частотой контактов, чем с активностью патогенной среды. Поэтому есть основание полагать, что данная характеристика может отражать особенности местности наблюдения.
Далее стандартными способами языка Python найдены среднее значение по периоду фоновой заболеваемости и доверительный интервал, построены графики реальной заболеваемости за 2016 и 2017 годы. Пример построенного графика в приложении (Приложение 2).
2.2.3 Модель и основной алгоритм
Основной алгоритм программы представляет собой несколько функций, которые в совокупности осуществляют запись рекуррентных соотношений, нахождение оценки количества заболевших, запись целевой функции и нахождение минимума целевой функции, а также функцию для построения графика от смоделированных данных заболеваемости при найденных оптимальных параметрах (Приложение 3).
Далее написан алгоритм нахождения оптимальных параметров для каждой из 57 поликлиник. По ходу нахождения параметры записываются в Dataframe таблицы и позже конвертируются в Excel таблицы и сохраняются в основной папке с программой автоматически (Приложение 4).
В зависимости от подзадачи, находится один, три или пять параметров. Данный алгоритм представляет собой перебор параметров из допустимых диапазонов и нахождение минимума целевой функции. Как только найден минимум, найдены и параметры, при которых минимум достигается. Основной параметр - интенсивность заражения используется для построения оценки количества заболевших и позволяет сравнивать заболеваемость в фоновый период в различных районных территориях и округах Москвы. Остальные параметры также уточняют оценку количества заболевших.
2.2.4 Вывод графиков и результатов по поликлиникам
Таблица 3.
Результаты для трех подзадач.
Для параметра «Интенсивность заражения- л» |
Для трех параметров«л, I, R» |
Для пяти параметров«л, I, R, µ, г» |
|
ѕ Две итоговые таблицы для 2016 и 2017 годов ѕ 57 графиков для 2016 года ѕ 57 графиков для 2017 года |
ѕ Две итоговые таблицы для 2016 и 2017 годов ѕ 57 графиков для 2016 года ѕ 57 графиков для 2017 года |
ѕ Для поликлиник не вычислялись, только для округов и Москвы в целом |
В таблицах указан округ, номер поликлиники, количество обратившихся и найденные параметры для конкретной поликлиники. Выводятся графики реальной и смоделированной заболеваемости при оптимальных параметрах. Понадобился также график зависимости целевой функции от параметра интенсивность заражения. Наглядная зависимость функции от этого параметра позволила провести проверку на наличие других локальных минимумов. Подробные результаты будут представлены в приложении (Приложение 4).
После получения таблиц, с помощью возможностей Python, конвертируем Pandas Dataframe в таблицу Еxcel. Фрагмент автоматически собранной таблицы в Приложении. В заключении анализа зависимости параметров и результатов по двум годам, проводится вычисление коэффициентов корреляции. Строится сравнительный график для 57 поликлиник по параметру «Интенсивность заражения л» (Приложение 5, 6).
распространение инфекция модель эпидемический
2.2.5 Группировка данных заболеваемости по округам Москвы
С помощью метода языка Python DataFrame.groupby группирую внутри каждого из 11 округов данные заболеваемости. И проделываю все те же операции и тот же анализ. Группировка осуществляется для всех трех программ. Это позволяет сравнить в результате точность моделей при увеличении количества параметров. Сгруппированные данные по округам позволяют получить усредненные оценки по более обширной территории, избежать влияния ошибок в статистических данных. Сгруппированные данные также нормируются на 100000, для того чтобы можно было сравнивать их между собой и сравнивать с поликлиниками (Приложение 7).
2.2.6 Реализация поиска пяти параметров «л, I, R, µ, г»
Ввиду того, что при увеличении параметров при переборе значительно увеличивается время работы программы, для всех 57 поликлиник этот анализ проводить было нецелесообразно. Поэтому анализ был проделан для 11 округов и для Москвы в целом. Диапазоны параметров, из которых производился перебор имели более крупный шаг из соображений времени работы программы. Как будет видно далее, точность оценки количества заболевших людей в период фоновой заболеваемости при увеличении количества параметров увеличивалась.
Результаты работы программы для Москвы показали средний уровень параметра интенсивность заражения, равный 0.8 человек в неделю от одного больного. Интерпретация данных результатов будет в соответствующей главе.
Таким образом, рассмотрены структурные части трех схожих программ, но отличающихся деталями и количеством параметров. Подробные результаты будут приведены в приложении (Приложение 8).
Выводы по Главе 2:
1. Расписаны этапы работы и основной функционал программ
2. Конкретизирован каждый этап и приведены ссылки на фрагменты программы и результаты, приведенные в приложении.
3. Результаты и применение
Результатом данной работы являются три основные программы, написанные для вычисления оптимальных параметров эпидемической модели и сопутствующие документы для разъяснения и внедрения программ в исследовательские проекты. Внутри каждой из программ есть разделение на вычисление параметров для районных территорий и округов. Внутри каждой программы имеются результаты для двух годов и сравнительный анализ полученных результатов. В программе, реализующей поиск пяти оптимальных параметров, вычислены результаты для мегаполиса Москвы. Результаты всех программ отражены в виде визуализаций и таблиц. Сводные таблицы автоматически созданы в папке с программой в формате Excel.
Начать обсуждение результатов программ следует с выявления средних показателей и основных тенденций. Основной параметр Интенсивность заражения л во всех трех исследованиях находился для всех поликлиник и районов в диапазоне от [0.52; 2.4]. При вариации одного параметра, данный параметр находился в диапазоне [0.52; 0.87], что согласуется с приведенной в Патенте РФ №2572227 оценкой этого параметра (0,72 чел./в неделю от одного больного) предложенной модели SIR+A.
Основные результаты, полученные для параметра интенсивность заражения в 2016 и 2017 годах году для районных территорий и для округов, показывают неухудшение ситуации заболеваемости ОРВИ и гриппом в городе Москве. В целом данный параметр характеризуется частотой контактов и силой инфекции. Таким образом, есть основание полагать, что в отдельных районах снизилась частота контактов, либо были применены иные меры профилактики со стороны населения и государственных структур. Причинами неухудшения данной ситуации может служить открытие Московского Центрального Кольца, открытие новых станций метро и сокращения маршрутного транспорта и его замещение большими автобусами.
Для сравнения можно рассмотреть параметр «Интенсивность заражения», вычисленный при вариации пяти параметров «л, I, R, µ, г» на карте округов города Москвы. Естественно, полученные параметры полностью опираются лишь на данные статистики, которую проверить на достоверность практически невозможно. Тем не менее, понедельное количество заболевших людей является оценкой реальной ситуации. Расхождения с реальностью имеются из-за того, что многие люди обращаются в частные учреждения для получения медицинской помощи или же не обращаются вовсе. И в каждом районе процент таких людей различен. Данные медицинской статистики также могут отличаться от реального количества посещений больными специальных учреждений.
Рис.2 Параметр интенсивность заражения для округов города Москвы в период фоновой заболеваемости, единицы измерения - человек в неделю.
Сравним результаты оценок числа заболевших при поиске одного, трех и пяти параметров для округов города Москвы. С увеличением числа подбираемых параметров модельное количество заболевших точнее приближает реальную заболеваемость.
Таблица 4.
Сравнение точности оценки количества заболевших людей при увеличении подбираемых параметров. Красным - график модели, зеленым - данные фактической заболеваемости
Округ |
Для параметра «Интенсивность заражения- л» |
Для трех параметров«л, I, R» |
Для пяти параметров«л, I, R, µ, г» |
|
ЮАО |
||||
СВАО |
При уточнении большего количества параметров значение целевой функции, которая является суммой квадратов отклонений реальных и модельных данных, должно уменьшаться. Рассмотрим значения целевых функций для 9 округов Москвы при переборе одного, трех и пяти параметров.
Рис.3. Различия минимумов целевых функций для округов Москвы при увеличении количества параметров, по оси абсцисс - номер округа, по оси ординат - значение минимума целевой функции.
Как видно из графиков, значения целевой функции по одному параметру гораздо больше, чем по трем и по пяти, которые между собой практически не отличаются. В случае с программой по трем параметрам «л, I, R» такие параметры, как µ - интенсивность выздоровления и г - скорость потери иммунитета, задаются по умолчанию и являются статистически подтвержденными (µ = . Из этого можно сделать вывод, что для округов Москвы данные параметры примерно соответствуют общепринятым значениям.
Также полный анализ был проделан для расчетов параметров модели SIR+A по Москве для популяции в 7 миллионов жителей, прикрепленных к городским лечебно-профилактическим учреждениям (ЛПУ), из которых число обратившихся в ЛПУ за год составило 6 миллионов человек. Оценка среднего параметра «Интенсивность заражения л» составила 0,8 человек в неделю, что может являться отправным значением этого параметра в ежегодном мониторинге комфортности мегаполиса по заболеваемости ОРВИ и гриппом для населения. «Интенсивность выздоровления одного больного µ» = , значение параметра «Скорость потери иммунитета одним человеком » = . Таким образом, для мегаполиса средняя продолжительность заболевания составила две недели, а общепринятое значение полторы недели. Средняя продолжительность сохранения иммунитета совпадает с общепринятым значением и равна 26 неделям.
В заключении рассмотрим на примере одной поликлиники две модели, оценивающие количество заболевших людей в период с 24 по 33 неделю года. Данное сравнение отражает преимущества модели, рассмотренной и автоматизированной в этой работе. Для сравнения берутся две SIR-подобные модели - модель Барояна-Рвачева и модель SIR+A.
Рис.4. Сравнение точности SIR-подобных моделей, по оси абсцисс - 10 недель с 24 по 33, по оси ординат - количество заболевших ОРВИ и гриппом в эту неделю.
Таким образом, можно констатировать целесообразность модели SIR+A для данной эпидемической ситуации. Оптимальные параметры, найденные в данной работе можно использовать для прогнозирования и анализа. Программное обеспечение написано с учетом возможности нахождения и других параметров модели, таких как А - агрессивность внешней среды и r - среднее число людей, приобретающих иммунитет. Соответственно анализ можно проводить не только в период фоновой заболеваемости, но и в периоды вспышек заболевания ОРВИ и гриппом.
Представленные программы прошли государственную регистрацию в Реестре программ для ЭВМ Федеральной службы по интеллектуальной собственности (Свидетельство №2018613078 от 02.03.2018, Свидетельство №2018614152 от 02.04.2018, Свидетельство №2018614396 от 05.04.2018), (Приложение 9).
Для данной программы создана соответствующая документация для установки и использования, короткое обучающее видео и примеры выполнения программы.
Программное обеспечение подлежит модернизации, а именно акцент может быть сделан на создание пользовательского интерфейса или на написание данных алгоритмов на низкоуровневом языке с параллельной реализацией.
Идеи данной модели и результаты программной реализации были представлены в докладе на 9-ой Международной научно-практической конференции студентов и аспирантов «Статистические методы анализа экономики и общества» [10].
Выводы по Главе 3
1. Программная реализация позволила провести сравнительный анализ эпидемической ситуации между районными территориями и округами Москвы и сопоставить результаты по двум годам.
2. Данная программа может использоваться для последующего анализа других этапов эпидемических ситуаций и подлежит улучшению.
3. Программа показала свою состоятельность в нахождении оценок параметров и моделировании количества заболевших ОРВИ и гриппом жителей города Москвы.
4. Программа готова к внедрению в образовательные и исследовательские проекты и имеет государственную регистрацию.
Заключение
Подведем итоги проделанной работы. Получена программная реализация, аналитическая информация и выводы обработанной статистики. Эпидемическая модель SIR+A автоматизирована и написан алгоритм поиска оптимальных параметров данной модели. Данная программа как средство автоматизации предназначена для обработки большого массива данных, для построения однотипных графиков, для подсчета параметров методом перебора переменных из допустимых диапазонов, для составления сводных таблиц и подсчета основных статистических показателей. Параметры могут использоваться для прогнозирования эпидемической ситуации в отдельных округах и по Москве. Данная программа может быть использована для нахождения параметров в любой период эпидемической ситуации и для любых данных, которые представлены в шаблонном виде таблицы Excel.
Все поставленные задачи были выполнены, основные тенденции определены. В ходе решения задач возникали новые подзадачи и усложнения, которые были также реализованы. Программа подлежит улучшению и ускорению, но на данный момент она является конечным продуктом, полностью пригодным для выполнения всех поставленных задач.
Программа имеет как исследовательскую ценность, так и образовательную. Данный анализ отражает взаимодействие науки эпидемиологии и математики, а также несет смысловую нагрузку, в которой найденные параметры отражают особенности местности, для которой проводится анализ.
Список используемой литературы
1. Кондратьев М.А. Методы прогнозирования и модели распространения заболеваний // Компьютерные исследования и моделирование, 2013. Т. 5 № 5 С. 863-882
2. Бароян О.В., Рвачев Л.А., Иванников Ю.Г. Моделирование и прогнозирование эпидемий гриппа для территории СССР. М.: ИЭМ им. Н.Ф.Гамалеи, 1977. 546 C.
3. Kermack W.O., McKendrick A.G. A contribution to the mathematical theory of epidemics // Proc. R. Soc. Lond. A, 1927.
4. Бароян О.В., Рвачев Л.А. Математика и эпидемиология. - М.: «Знание», 1977.
5. Гришунина Ю.Б., Контаров Н.А., Архарова Г.В., Юминова Н.В., Статистический анализ параметров модели эпидемической ситуации // Эпидемиология и Вакцинопрофилактика, 2015. C. 13-20.
Подобные документы
Описание процесса нахождения оптимальных параметров ПИД регулятора. Овладение методами математического описания систем. Рассмотрение и применение методов синтеза непрерывных и дискретных систем автоматического управления с помощью MATLAB Simulink.
курсовая работа [1,7 M], добавлен 23.12.2015Проектирование и реализация модели, которая будет имитировать автозаправочную станцию с постоплатой. Подбор оптимальных параметров модели с учетом требований к сети массового обслуживания. Разработка модели в среде имитационного моделирования GPSS World.
контрольная работа [279,5 K], добавлен 16.03.2014Проведение идентификации модели по схеме МНК. Запись исходной модели в дискретной форме. Сравнение параметров модели и результатов идентификации. Анализ графиков модельного выходного сигнала и оценки выходного сигнала, восстановленных по схеме МНК.
лабораторная работа [461,0 K], добавлен 19.02.2015Анализ предметной области и документирование результатов. Построение модели данных с использованием CASE-средства AllFusion Erwin Data Modeler. Задание базовых параметров систем, необходимых для построения модели данных. Результаты выполнения запроса.
курсовая работа [3,6 M], добавлен 13.12.2013Разработка базы данных хранения значений технологических параметров с системой управления, графическое отображение значений технологических параметров. Синтез цифровой комбинированной системы регулирования. Расчет оптимальных настроек регулятора.
курсовая работа [1,3 M], добавлен 13.10.2012Сущность статистического синтеза: поиск и реализация оптимальных свойств (структуры и параметров) системы по заданным статистическим характеристикам входных воздействий. Методы статистической оптимизации. Постановка задачи Винера–Колмогорова и ее решение.
реферат [62,9 K], добавлен 21.09.2009Анализ ряда подходов к определению требований к обучающим системам, формулирование системы критериев их оценки. База данных для хранения и обработки параметров и подпараметров электронных учебников и результатов оценки тестируемых электронных учебников.
курсовая работа [1,5 M], добавлен 23.03.2012Разработка элементов информационного обеспечения – логической модели реляционной и объектной баз данных с использованием метода диаграмм классов. Автоматизация процесса учета результатов анкетирования учащихся подразделения ВУЗа "Центр статистики".
курсовая работа [35,8 K], добавлен 28.01.2016Определенная логическая структура данных, которые хранятся в базе данных. Основные модели данных. Элементы реляционной модели данных. Пример использования внешних ключей. Основные требования, предъявляемые к отношениям реляционной модели данных.
презентация [11,7 K], добавлен 14.10.2013Методика анализа угроз безопасности информации на объектах информатизации органов внутренних дел. Выявление основных способов реализации утечки информации. Разработка модели угроз. Алгоритм выбора оптимальных средств инженерно-технической защиты данных.
курсовая работа [476,3 K], добавлен 19.05.2014