НОВОСТИ [recovery mode] COVID-19: Модель параметрического предсказания эпидемии

Alvaros
Онлайн

Alvaros

Ветеран
.
Регистрация
14.05.16
Сообщения
21.453
Реакции
102
Репутация
204
ДЕПОЗИТ
0
Действительно, за последние месяцы тема анализа эпидемии covid-19 уже порядком достала, звуча из всех утюгов, кофеварок и лыж. Да и сама тема уже практически (очень зря) потеряла свою актуальность.
Однако, как раз сейчас, у нас накопился достаточный объем данных по которому мы можем посмотреть как именно развивалась эпидемия и проверить модели, которые использовались ‘в бою’.


Введение



В этой статье мы не будем концентрироваться на жутком матане и тервере, рассматривать экономические или политические последствия и не будем пытаться изобрести свою статистику.


Вместо этого мы:

  • Рассмотрим некоторые моменты, подходы и идеи в обработке данных, которые пригодятся при построении модели.
  • Построим объемную модель эпидемии.
  • И оценим как изменение некоторых параметров может влиять на ход эпидемии.

Disclaimer 1:
В этой статье будет довольно сильный уклон в сторону анализа ситуации по России в целом, и Нижнего Новгорода в частности.

Disclaimer 2:
Все модели исходят из официальных данных указанных стран и регионов.

Disclaimer 3:
Говоря о России и её регионах, мы сознательно будем убирать последние данные (начиная, примерно, с 15 мая) из-за целого ряда причин. Кратко опишем это как: Изменение методики подсчета заболевших. Однако, это тема для отдельной статьи и мы не будем вдаваться в эти дискуссии сегодня.​

Данные



Ну, начнем от печки. Данные по миру, странам с достаточным объемом статистики и их регионам можно найти тут , а по России и российским регионам тут . Автоматически выгружаем данные из этих источников и формируем удобный датасет.


Для начала, стоит сделать сноску про то, что мы не может оценивать все страны одним и тем же методом. Так как , , учет смертности людей с сопутствующими заболеваниями (см. ) отличаются от страны к стране. (Не говоря уже о различных вводимых властями мерах по предотвращению эпидемии и национальных особенностях, про это немного позже).


Поэтому сложно предсказывать дальнейшее развитие эпидемии в конкретной стране, опираясь только на страны со схожей динамикой распространения вируса. (Как минимум, из-за существенного отличия тренда Российской статистики и статистики других стран в пересчете на единицу населения.)


157e22d0dff502c27abe70eca49ed8d8.png


Еще одна проблема, на которой стоит заострить внимание, — методология сбора и обработки статистики по смертности. Учитываются ли люди, умершие от сопутствующих заболеваний, в то время как они были заражены COVID-19? Учитываются ли умершие с аналогичной симптоматикой, но ? Тем более что в России подход к учету статистики драматически менялся без пересмотра уже опубликованных данных.


Можно посмотреть отчет , где рассказывается про различие смерти с коронавирусом и смерти от коронавируса: "crude mortality ratio" и "infection mortality rate". (Для более подробной сводки по смертности можно посмотреть две статьи на habr: & ).


Также, стоит брать во внимание или случайную неточность данных. И простой факт: чем больше хороших тестов проводится (с малой ), тем больше в стране будет выявленно заболевших.


Еще одно интересное наблюдение, которое можно выделить из данных, — это ‘синдром выходного дня’ (как бы странно это не звучало). Значительный спад в количестве подтвержденных случаев наблюдается в понедельник-вторник (понедельники отмечены на графиках), что выполняется для большинства стран.

‘Синдром выходного дня’ в разных странах
0de2a1a510f93bcf4947b6bbfa6d394b.png

fe742a913fa74e716b2fd034041b173b.png

9eb794219283f9206877288fe4cc387a.png



Это, скорее всего, объясняется тем, что в выходные не проводятся (или существенно снижается объем) акции массового тестирования, не работают лаборатории и вызов врача на дом. Поэтому к понедельнику оказывается недостаточно материала для подтверждения новых случаев заражения.

9a2b7fffa46da7af7b66ad14e2115a65.png


С Россией все несколько сложнее. В целом, если постараться, можно разглядеть этот ‘синдром’ вплоть до, примерно, 11 Мая. (См. Disclaimer 3).


Ну и последний важный момент, связанный с данными. Можно заметить, что в официальной статистике любой страны наблюдается ситуация, когда число заболевших первые несколько недель растет очень медленно или совсем не растет. Как будто мы действительно строим экспоненту и нецелое количество людей округляем вверх.

78304245c0ac330426ef629b8c2353d4.png


Это легко объясняется продолжительным временем развития первых симптомов у зараженных, отсутствием тестирования в первые дни и простым общечеловеческим раздолбайством. Этот факт понятен визуально, однако, почти любая модель будет довольно сильно "сбиваться" от такого долгого периода застоя. Поэтому далее все данные проходят предобработку и эпидемия будет рассматриваться с момента наличия 300 заболевших для страны и 50 для регионов (если не указано обратное).


Краткий вывод можно сформулировать так: данные разнятся от страны к стране и будет довольно сложно выделить и применять один универсальный метод к любым странам. Как мы увидим позже, страны с ‘очевидно адекватной’ статистикой (доверие к статистике, правильно введенные меры, снятие ограничений после эпидемии, а не во время и так далее) лучше всего будут подходить к модели.

Долгосрочная модель



Вот мы наконец-то и подобрались к основному разделу этой статьи и к самой точной модели, которая, забегая немного вперед, дает довольно адекватные предсказания.


Важным моментом в построении модели является возможность интерпретировать параметры модели и сравнивать адекватность полученных значений параметра с общемировыми (если во всех странах заразность составила около 20%, а в одной конкретной стране почему-то 3%, то что-то тут не то).


Да, можно использовать , которая уже стала ‘классической’ за последние месяцы. Однако, эта модель слабо интерпретируемая и зависит от предпринимаемых государством мер, уровнем соблюдения изоляции, вероятностью передачи от асимптотических и количеством бессимптомных, да и просто необнаруженных, больных. Все эти параметры можно вбить в модель SEIR железным костылем, но обучение такой модели существенно затруднено. (Пример анализа вариантов развития эпидемии от мер на основе имитационного моделирования такой модели можно посмотреть в красивых видео в )


В основу этой статьи легла публикация китайских ученых , которая была переработана и адаптированна под российские реалии.

Краткое описание исходной статьи

В этой статье предложена усовершенствованная модель SEIAR, обобщенная и расширенная дополнительными переменными (о них немного позже). Модель обучалась на статистических данных о заражении в материковом Китае, не включая провинцию Хубэй. (Её исключили на основании того, что здравоохранение было критически не готово к эпидемии, в отличии от остальной части страны, куда вирус дошел позже. Однако, модель с некоторыми оговорками можно экстраполировать и на весь Китай.). Сами дифференциальные уравнения решались с использованием , а если быть точным, то использовать .


Сама модель хороша тем, что учитываем момент не намеренного занижения статистики — когда просто физически невозможно учесть всех заболевших в симптомных и бессимптомных формах.


Замечание: Важно понимать, что не все значения параметров и выводы можно взять из статьи и принять за абсолютную правду. Разность подходов, развитость экономики, введенные меры и играют существенную роль.



Если кратко, то модель может быть представлена так:

75612ac2197b4e8d7fcd7b6f8987abca.png


Давайте забежим немного вперед и уже наконец покажем вам картиночку с прогнозом.

51b04473e9b8b274f5c67aaaa0c12901.png


Причем предсказание выглядит вполне адекватно, если а) считать статистику идеально правдивой и б) опираться на опыт других стран при снятии мер.

Запись от 14 мая: Хорошо видно, что пик эпидемии наблюдается прямо вот сейчас. Сейчас самое время всем выйти гулять! (САРКАЗМ)

3eac9511e241af3c4a49287f47ba5004.png


Но давайте, все же, не делать пока что поспешных выводов и начнем по порядку.

Формальное описание



Итак, под капотом модели работает набор диффуров:

Собственно, 11 диффуров
52ef0f664901dfe1c2a66fd7d40ad3f6.png



На самом деле, если внимательно посмотреть на описания параметров и формулы (и потратить часок-другой), то становится понятно, что это довольно простая по своей логике система диффур. Основная проблема возникает именно в решении этой системы по имеющимся данным.


Описание всех параметров модели может быть найдено ниже:

Описание константных параметров (что подбираем)
После долгих консультаций с эпидимиологами, умственный усилий и получения своей собственной корочки вирусолога, были поставлены адекватные границы для каждого из параметров. Проблема возникает на этапе сравнения с другими странами, так как каждая страна использует свои подходы и возможные границы параметров будут различаться. Поэтому использованы наиболее широкие границы, позволяющие получить хороший результат.



А аппроксимировать и предсказывать мы будем следующие величины:

Описание переменных временных рядов (что предсказываем)

Обозначение:

Описание:

Используемые границы начальных значений:

S(t)

Уязвимые

E(t)

Зараженные в стадии инкубационного периода

[0, 1e+4]

I(t)

Симптомные больные

[0, 1e+4]

A(t)

Бессимптомные больные

[0, 1e+4]

Si(t)

Изолированные уязвимые

[0, 1e+4]

Q(t)

Зараженные на карантине

H(t)

Госпитализированные зараженные

R(t)

Выздоровевшие

Rh(t)

Выздоровевшие из госпиталя

D(t)

Кумулятивное число смертей в госпитале

T(t)

Общее число подтвержденных случаев


В изначальной статье авторы предлогают использовать метод Марковских цепей Монте-Карло ( ). Но этот метод решает предложенные дифуры непозволительно долго и нестабильно. Поэтому мы используем другой метод. Всю эту сложную систему будем решать вполне классическими методами — мы пошагово аппроксимируем производную функции. Метод, конечно, не идеален и имеет много как плюсов как и минусов. Да, можно было решить и , но, совсем не факт, что это дало бы какие-либо значимые результаты.


Также, сама модель была немного отредактирована. Начальные значения зараженных, изолированных, симптомных и бессимптомных больных (от которых начинается решение уравнений) теперь представляют собой параметры, которые мы находим. Также был введен коэффициент снятия ограничений, с увеличением количества контактов в определенные моменты для моделирования второй волны (В статье упор на это делать не будем).

Эксперименты



Проведем моделирование для России. (Еще раз сошлемся на дисклеймер вначале, что мы НЕ рассматриваем статистику начиная с последнего времени из-за полного изменения методики учета)


Если мы считаем, что пик прошел в середине мая ровно в момент обращения президента и конца нерабочих дней.

d4d798ccb6e77d99f2361ed137898078.png

51b04473e9b8b274f5c67aaaa0c12901.png

Найденные параметры

phi

mu

c_0

beta

theta

eta

gamma_I

gamma_A

gamma_H

d

epsilon

q_2

q_3

sigma

Russia

0,064

0,004

30,889

0,064

0,410

0,182

0,793

0,208

0,020

0,001

0,642

0,900

12,387

0,000007


Как будет видно позже, экстремальные значения величины q_3 не будут сильно влиять на результат, а вот величина q_2, которая принимает тут максимально возможное значение при ограничениях показывает нам, что мы не нашли глобальный оптимум, а лишь уперлись в локальный минимум. Его найти будет очень сложно из-за совершенно неоднородной статистики в целом.


Важно учесть, что тут мы именно берем официальную статистику за ground truth и строим предсказания исходя из этого.

Графики количества подтвержденных случаев в других странах
bca2d647b0533a2ecb41d5da75c1e0c6.png

e622587d9e08ae97fca15b0bd8942110.png

65e2f0a6e3245b65ffa2dfc8118e5b78.png


Параметры найденные для этих стран

phi

mu

c_0

beta

theta

eta

gamma_I

gamma_A

gamma_H

d

epsilon

q_2

q_3

sigma

Canada

0,063

0,049

32,453

0,071

0,783

0,137

0,735

0,443

0,028

0,004

0,750

0,843

0,047

1,63E-05

Germany

0,078

0,033

33,262

0,092

0,838

0,024

1,000

0,100

0,059

0,001

0,773

0,746

23,883

3,42E-05

Italy

0,063

0,083

33,837

0,129

0,531

0,004

0,736

0,486

0,023

0,005

0,741

0,602

8,119

1,36E-05


Вот, тут все гораздо приятнее. Параметры, которые мы получили для этих стран выглядят более правдоподобными. Так хорошо модель обучается, в том числе, из-за более точной статистики — в этих странах изменения методики подсчета походу дела, сама методика схожая и так далее.


Так же видно, что в Германии происходит ‘Немецкое Чудо’ (система здравоохранения работает практически идеально, смертность очень низкая) — поэтому некоторые параметры для Германии показывают экстремальные значения.



В целом эта модель горааааздо устойчивее к флуктуациям в статистике, хотя и не идеальна и иногда проваливается в локальные минимумы, хоть и близкие к глобальным. Можно так же заметить, что данные везде, кроме России, почти во всех странах подвержены "синдрому выходного дня", о котором упоминалось выше.

Влияние изменения параметров



Попробуем немного поиграться с параметрами и посмотрим, как вводимые меры влияют на итоговое количество переболевших. При этом остальные параметры оставим фиксированными, как они были подобраны для текущего региона (вероятность передачи, количество бессимптомные больных и прочее). ( ст.8)


Тут мы не будем концентрироваться на статистике как таковой, а только косвенно описаться на неё при проверке адекватности вариаций параметра.

Заразность


42113cd473a02c866d3c335c756753eb.png

Подробнее про Заразность заболевания

beta — вероятность передачи вируса через контакт с инфицированным, при дистанции в полтора метра. Эту вероятность можно уменьшить путем соблюдения мер предосторожности и использования средств защиты, таких как перчатки, маски, антисептики. Кроме того, чем больше магазинов, транспорта дезинфицирует свои помещения и поверхности, тем вероятность beta, предположительно, меньше.

a83d2496a4a9f6ea5e528af2970491f4.png


Видно, что это довольно эффективные меры, которыми можно сильно повлиять на ситуацию в целом.
Соблюдая меры предосторожности, можно растянуть пик эпидемии, освобождая медицинскую систему от нагрузки, и, в конце концов, серьезно снизить количество заболевших.


Конечно, есть вариант переболеть быстро и всем (при этом умрет большой процент населения). В этом сценарии нужно посоветовать людям облизывать все поручни в маршрутках и почаще ходить на митинги / кафе / туристические места /

Дополнение
Отдельные авторы пишут, что отказ от антисептиков может повышать риск ОРЗ как минимум в 1,3 раза. Оценка повышения вероятности передачи при отказе от ношения перчаток пока оценено довольно плохо. Но однозначно известно, что ослабление карантина (в разных его формах) повышает эту вероятность из-за более халатного отношения к дистанции. Социальное дистанцирование примерно в 2-3 раза снижает вероятность.


Коэффициент Страха


8c89d86984616bf190ba231fa0a104f7.png

Подробнее про Коэффициент опасения населения

Рассмотрим изменение параметра sigma, который отвечает за снижение частоты контактов относительно кумулятивной суммы зараженных. (Проще говоря — насколько люди пугаются больших цифр по телевизору и начинают добросовестно соблюдать самоизоляцию).

dd944b61a273471013c6e3445b398cbb.png


Игнорирование мер изоляции и базовых правил предосторожности ведут к увеличению количества заболевших.


Самые очевидные меры по предотвращению снижения значения данного параметра: оповещение в СМИ, в соцсетях, закрытие предприятий и так далее.


Роль бессимптомных зараженных


4851eb53014ce02bd8c97346b1ce6241.png

Подробнее про Роль бессимптомных зараженных

А теперь проверим, как изменяется характер эпидемии при изменении доли бессимптомных больных. Границы этого параметра мы можем изначально оценить только приблизительно, потому что для уверенного заявления нужно массовое тестирование (см. Норвегию/Корею)

f5696f31b773701664b50cb0eb73c8af.png


Довольно очевидно, что зараженные без выраженных симптомов дают меньший вклад в развитие эпидемии (нет кашля — меньше шанс заразить случайного прохожего рядом). Однако, очень сложно оценить не только количество асимптомных больных, но и как именно они влияют на общую картину хода эпидемии. Для этого нужно обширное проведение скрининговых исследований на антитела.
Так же довольно сильно будет влиять возрастное распределение этого параметра: молодые, в основном, болеют бессимптомно, пожилые — с осложнениями и выраженными симптомами.



А теперь перейдем к самому интересному — параметры, которые напрямую зависят от мер, введенных конкретным государством.

Массовое тестирование


07c6733aeeff3348595b6710907cc1d8.png

Подробнее про Массовое тестирование

На этот параметр уже напрямую влияет государство. Доступность тестов, , точность тестов (ошибка первого уровня) и банальная готовность системы здравоохранения.

7f92c6718c95ff7425a182ac77374265.png


Массовое тестирование точными тестами (простите за тавтологию) помогает существенно снизить число заболевших в активной фазе, выявить большее число бессимптомных и, как следствие, изолировать больше активных переносчиков.


Можно предложить, например, такие меры: патрули на улицах, которые (не арестовывают людей и ведут их в отделение, где будет скопление народа) берут тесты у всех желающих. Крупные предприятия продолжают работу только при условии регулярной бесплатной (!) проверки сотрудников. Проверки с выездом на дом или рабочее место.


Большой Брат


1ab4aa1da7319ca82fc28772e61af11e.png

Подробнее про Контроль за перемещением граждан

На этом месте самое время вспомнить Большого Брата из романа 1984 и его жгучее желание отслеживать контакты и перемещения всех и каждого.


Введение похожих мер во многих странах оправдывается "заботой о людях" и соблюдением карантинных мер. К сожалению, государственные организации не могут предоставить конкретных данных по работе Рос-[Контроля] в этой сфере. Однако, посмотрев на колебания данного параметра, мы можем получить качественную оценку, показывающую полную неэффективность мер такого рода.

b4325da12fe66fc271c765fba5fe90b6.png


Тут можно сделать простой вывод: отследить все контакты потенциальных больных физически невозможно (см из Южной Кореи). Да, Google & Apple , но она лишь увеличит количество людей, которые захотят провериться, но не сможет уберечь их от заражения.


Область сценариев



Попробуем оценить насколько же разными может быть исход эпидемии в стране и регионе. Методика оценивания основывалась на умных книжках (например, Nonlinear Parameter Estimation — Yonathan Bard). В рамках этой статьи мы не будем залезать в матан, а только посмотрим на примерные картинки.


Естественно, итоговый результат может сильно колебаться в зависимости от введенных далее мер (или снятия оных), сознательности граждан и банальной удачи.


Для каждого региона можем найти параметры модели, которые наилучшим образом предсказывают развитие эпидемии по текущим данным. По найденным параметрам, как по случайным величинам, можно оценить интервал параметров — как будет развиваться эпидемия в любой произвольной стране.


Здесь применимы все стандартные средства матстата и статистического анализа.


Для Нижнего Новгорода было получено:

f3c9d8d7bddfb89316bbcb48cbc14d01.png


На графике, кроме интервала наиболее вероятных сценариев, так же изображено наиболее вероятное (для используемой статистики) предсказание.
Видно, что тренд может сильно меняться из-за недостаточной точности данных и большого шума в данных по регионам. Однако, прогнозы укладываются в нашу область.

1117c90e42c4b7e57cf00fa9647757bc.png

Краткие выводы



Веря официальной статистике, переболеет небольшая часть населения, при условии соблюдения мер. Еще один вывод, вытекающий из предыдущего, что "русский менталитет" помогает существенно снизить заразность вируса. Особенно в последнюю половину мая.


Для COVID-19 инкубационный период составляет от 2 до 14 дней (чаще всего 5-6), латентный период практически равен инкубационному. Поэтому, даже если вы чувствуйте себя отлично равно как и ваши друзья, с которыми вы хотите встретиться, то это не ограничит вас на 100% от заражения. А нарушением самоизоляции вы повысите beta — уровень заразности вируса в стране.


Очень сильно итоговая ситуация зависит от уровня изоляции жителей. Это связано с сознательностью, введением карантина, помощью государства, возможностью работать из дома и многим другим.

Мем
baa9369a8f4b3b7a4d57c96d8ba52f75.png



Тогда как прямая слежка за перемещением от государства практически не влияет на ход эпидемии.


В России и в мире значительная часть инфицированного населения переносит болезнь в бессимптомной форме. (в некоторых странах бОльшая часть, иначе не сходится официальная статистика и теоретические изыскания). Хотя это существенно не будет влиять на саму эпидемию.


В целом, для стран с большим доверием к статистики модель позволяет получить достаточно точный прогноз.


Отдельная благодарность , и за помощь в написании статьи и построении модели.
 
Сверху Снизу