- Регистрация
- 14.05.16
- Сообщения
- 21.453
- Реакции
- 102
- Репутация
- 204
- ДЕПОЗИТ
- 0
Действительно, за последние месяцы тема анализа эпидемии covid-19 уже порядком достала, звуча из всех утюгов, кофеварок и лыж. Да и сама тема уже практически (очень зря) потеряла свою актуальность.
Однако, как раз сейчас, у нас накопился достаточный объем данных по которому мы можем посмотреть как именно развивалась эпидемия и проверить модели, которые использовались ‘в бою’.
Введение
В этой статье мы не будем концентрироваться на жутком матане и тервере, рассматривать экономические или политические последствия и не будем пытаться изобрести свою статистику.
Вместо этого мы:
Данные
Ну, начнем от печки. Данные по миру, странам с достаточным объемом статистики и их регионам можно найти тут
Для начала, стоит сделать сноску про то, что мы не может оценивать все страны одним и тем же методом. Так как
Поэтому сложно предсказывать дальнейшее развитие эпидемии в конкретной стране, опираясь только на страны со схожей динамикой распространения вируса. (Как минимум, из-за существенного отличия тренда Российской статистики и статистики других стран в пересчете на единицу населения.)
Еще одна проблема, на которой стоит заострить внимание, — методология сбора и обработки статистики по смертности. Учитываются ли люди, умершие от сопутствующих заболеваний, в то время как они были заражены COVID-19? Учитываются ли умершие с аналогичной симптоматикой, но
Можно посмотреть отчет
Также, стоит брать во внимание
Еще одно интересное наблюдение, которое можно выделить из данных, — это ‘синдром выходного дня’ (как бы странно это не звучало). Значительный спад в количестве подтвержденных случаев наблюдается в понедельник-вторник (понедельники отмечены на графиках), что выполняется для большинства стран.
‘Синдром выходного дня’ в разных странах
Это, скорее всего, объясняется тем, что в выходные не проводятся (или существенно снижается объем) акции массового тестирования, не работают лаборатории и вызов врача на дом. Поэтому к понедельнику оказывается недостаточно материала для подтверждения новых случаев заражения.
С Россией все несколько сложнее. В целом, если постараться, можно разглядеть этот ‘синдром’ вплоть до, примерно, 11 Мая. (См. Disclaimer 3).
Ну и последний важный момент, связанный с данными. Можно заметить, что в официальной статистике любой страны наблюдается ситуация, когда число заболевших первые несколько недель растет очень медленно или совсем не растет. Как будто мы действительно строим экспоненту и нецелое количество людей округляем вверх.
Это легко объясняется продолжительным временем развития первых симптомов у зараженных, отсутствием тестирования в первые дни и простым общечеловеческим раздолбайством. Этот факт понятен визуально, однако, почти любая модель будет довольно сильно "сбиваться" от такого долгого периода застоя. Поэтому далее все данные проходят предобработку и эпидемия будет рассматриваться с момента наличия 300 заболевших для страны и 50 для регионов (если не указано обратное).
Краткий вывод можно сформулировать так: данные разнятся от страны к стране и будет довольно сложно выделить и применять один универсальный метод к любым странам. Как мы увидим позже, страны с ‘очевидно адекватной’ статистикой (доверие к статистике, правильно введенные меры, снятие ограничений после эпидемии, а не во время и так далее) лучше всего будут подходить к модели.
Долгосрочная модель
Вот мы наконец-то и подобрались к основному разделу этой статьи и к самой точной модели, которая, забегая немного вперед, дает довольно адекватные предсказания.
Важным моментом в построении модели является возможность интерпретировать параметры модели и сравнивать адекватность полученных значений параметра с общемировыми (если во всех странах заразность составила около 20%, а в одной конкретной стране почему-то 3%, то что-то тут не то).
Да, можно использовать
В основу этой статьи легла публикация китайских ученых
Краткое описание исходной статьи
В этой статье предложена усовершенствованная модель SEIAR, обобщенная и расширенная дополнительными переменными (о них немного позже). Модель обучалась на статистических данных о заражении в материковом Китае, не включая провинцию Хубэй. (Её исключили на основании того, что здравоохранение было критически не готово к эпидемии, в отличии от остальной части страны, куда вирус дошел позже. Однако, модель с некоторыми оговорками можно экстраполировать и на весь Китай.). Сами дифференциальные уравнения решались с использованием
Сама модель хороша тем, что учитываем момент не намеренного занижения статистики — когда просто физически невозможно учесть всех заболевших в симптомных и бессимптомных формах.
Замечание: Важно понимать, что не все значения параметров и выводы можно взять из статьи и принять за абсолютную правду. Разность подходов, развитость экономики, введенные меры и
Если кратко, то модель может быть представлена так:
Давайте забежим немного вперед и уже наконец покажем вам картиночку с прогнозом.
Причем предсказание выглядит вполне адекватно, если а) считать статистику идеально правдивой и б) опираться на опыт других стран при снятии мер.
Но давайте, все же, не делать пока что поспешных выводов и начнем по порядку.
Формальное описание
Итак, под капотом модели работает набор диффуров:
Собственно, 11 диффуров
На самом деле, если внимательно посмотреть на описания параметров и формулы (и потратить часок-другой), то становится понятно, что это довольно простая по своей логике система диффур. Основная проблема возникает именно в решении этой системы по имеющимся данным.
Описание всех параметров модели может быть найдено ниже:
Описание константных параметров (что подбираем)
После долгих консультаций с эпидимиологами, умственный усилий и получения своей собственной корочки вирусолога, были поставлены адекватные границы для каждого из параметров. Проблема возникает на этапе сравнения с другими странами, так как каждая страна использует свои подходы и возможные границы параметров будут различаться. Поэтому использованы наиболее широкие границы, позволяющие получить хороший результат.
А аппроксимировать и предсказывать мы будем следующие величины:
Описание переменных временных рядов (что предсказываем)
Однако, как раз сейчас, у нас накопился достаточный объем данных по которому мы можем посмотреть как именно развивалась эпидемия и проверить модели, которые использовались ‘в бою’.
Введение
В этой статье мы не будем концентрироваться на жутком матане и тервере, рассматривать экономические или политические последствия и не будем пытаться изобрести свою статистику.
Вместо этого мы:
- Рассмотрим некоторые моменты, подходы и идеи в обработке данных, которые пригодятся при построении модели.
- Построим объемную модель эпидемии.
- И оценим как изменение некоторых параметров может влиять на ход эпидемии.
Disclaimer 1:
В этой статье будет довольно сильный уклон в сторону анализа ситуации по России в целом, и Нижнего Новгорода в частности.
Disclaimer 2:
Все модели исходят из официальных данных указанных стран и регионов.
Disclaimer 3:
Говоря о России и её регионах, мы сознательно будем убирать последние данные (начиная, примерно, с 15 мая) из-за целого ряда причин. Кратко опишем это как: Изменение методики подсчета заболевших. Однако, это тема для отдельной статьи и мы не будем вдаваться в эти дискуссии сегодня.
В этой статье будет довольно сильный уклон в сторону анализа ситуации по России в целом, и Нижнего Новгорода в частности.
Disclaimer 2:
Все модели исходят из официальных данных указанных стран и регионов.
Disclaimer 3:
Говоря о России и её регионах, мы сознательно будем убирать последние данные (начиная, примерно, с 15 мая) из-за целого ряда причин. Кратко опишем это как: Изменение методики подсчета заболевших. Однако, это тема для отдельной статьи и мы не будем вдаваться в эти дискуссии сегодня.
Данные
Ну, начнем от печки. Данные по миру, странам с достаточным объемом статистики и их регионам можно найти тут
You must be registered for see links
, а по России и российским регионам тут
You must be registered for see links
. Автоматически выгружаем данные из этих источников и формируем удобный датасет.Для начала, стоит сделать сноску про то, что мы не может оценивать все страны одним и тем же методом. Так как
You must be registered for see links
,
You must be registered for see links
, учет смертности людей с сопутствующими заболеваниями (см.
You must be registered for see links
) отличаются от страны к стране. (Не говоря уже о различных вводимых властями мерах по предотвращению эпидемии и национальных особенностях, про это немного позже).Поэтому сложно предсказывать дальнейшее развитие эпидемии в конкретной стране, опираясь только на страны со схожей динамикой распространения вируса. (Как минимум, из-за существенного отличия тренда Российской статистики и статистики других стран в пересчете на единицу населения.)
You must be registered for see links
Еще одна проблема, на которой стоит заострить внимание, — методология сбора и обработки статистики по смертности. Учитываются ли люди, умершие от сопутствующих заболеваний, в то время как они были заражены COVID-19? Учитываются ли умершие с аналогичной симптоматикой, но
You must be registered for see links
? Тем более что в России подход к учету статистики драматически менялся без пересмотра уже опубликованных данных.Можно посмотреть отчет
You must be registered for see links
, где рассказывается про различие смерти с коронавирусом и смерти от коронавируса: "crude mortality ratio" и "infection mortality rate". (Для более подробной сводки по смертности можно посмотреть две статьи на habr:
You must be registered for see links
&
You must be registered for see links
).Также, стоит брать во внимание
You must be registered for see links
или случайную неточность данных. И простой факт: чем больше хороших тестов проводится (с малой
You must be registered for see links
), тем больше в стране будет выявленно заболевших. Еще одно интересное наблюдение, которое можно выделить из данных, — это ‘синдром выходного дня’ (как бы странно это не звучало). Значительный спад в количестве подтвержденных случаев наблюдается в понедельник-вторник (понедельники отмечены на графиках), что выполняется для большинства стран.
‘Синдром выходного дня’ в разных странах
Это, скорее всего, объясняется тем, что в выходные не проводятся (или существенно снижается объем) акции массового тестирования, не работают лаборатории и вызов врача на дом. Поэтому к понедельнику оказывается недостаточно материала для подтверждения новых случаев заражения.
С Россией все несколько сложнее. В целом, если постараться, можно разглядеть этот ‘синдром’ вплоть до, примерно, 11 Мая. (См. Disclaimer 3).
Ну и последний важный момент, связанный с данными. Можно заметить, что в официальной статистике любой страны наблюдается ситуация, когда число заболевших первые несколько недель растет очень медленно или совсем не растет. Как будто мы действительно строим экспоненту и нецелое количество людей округляем вверх.
Это легко объясняется продолжительным временем развития первых симптомов у зараженных, отсутствием тестирования в первые дни и простым общечеловеческим раздолбайством. Этот факт понятен визуально, однако, почти любая модель будет довольно сильно "сбиваться" от такого долгого периода застоя. Поэтому далее все данные проходят предобработку и эпидемия будет рассматриваться с момента наличия 300 заболевших для страны и 50 для регионов (если не указано обратное).
Краткий вывод можно сформулировать так: данные разнятся от страны к стране и будет довольно сложно выделить и применять один универсальный метод к любым странам. Как мы увидим позже, страны с ‘очевидно адекватной’ статистикой (доверие к статистике, правильно введенные меры, снятие ограничений после эпидемии, а не во время и так далее) лучше всего будут подходить к модели.
Долгосрочная модель
Вот мы наконец-то и подобрались к основному разделу этой статьи и к самой точной модели, которая, забегая немного вперед, дает довольно адекватные предсказания.
Важным моментом в построении модели является возможность интерпретировать параметры модели и сравнивать адекватность полученных значений параметра с общемировыми (если во всех странах заразность составила около 20%, а в одной конкретной стране почему-то 3%, то что-то тут не то).
Да, можно использовать
You must be registered for see links
, которая уже стала ‘классической’ за последние месяцы. Однако, эта модель слабо интерпретируемая и зависит от предпринимаемых государством мер, уровнем соблюдения изоляции, вероятностью передачи от асимптотических и количеством бессимптомных, да и просто необнаруженных, больных. Все эти параметры можно вбить в модель SEIR железным костылем, но обучение такой модели существенно затруднено. (Пример анализа вариантов развития эпидемии от мер на основе имитационного моделирования такой модели можно посмотреть в красивых видео в
You must be registered for see links
)В основу этой статьи легла публикация китайских ученых
You must be registered for see links
, которая была переработана и адаптированна под российские реалии.Краткое описание исходной статьи
В этой статье предложена усовершенствованная модель SEIAR, обобщенная и расширенная дополнительными переменными (о них немного позже). Модель обучалась на статистических данных о заражении в материковом Китае, не включая провинцию Хубэй. (Её исключили на основании того, что здравоохранение было критически не готово к эпидемии, в отличии от остальной части страны, куда вирус дошел позже. Однако, модель с некоторыми оговорками можно экстраполировать и на весь Китай.). Сами дифференциальные уравнения решались с использованием
You must be registered for see links
, а если быть точным, то использовать
You must be registered for see links
. Сама модель хороша тем, что учитываем момент не намеренного занижения статистики — когда просто физически невозможно учесть всех заболевших в симптомных и бессимптомных формах.
Замечание: Важно понимать, что не все значения параметров и выводы можно взять из статьи и принять за абсолютную правду. Разность подходов, развитость экономики, введенные меры и
You must be registered for see links
играют существенную роль. Если кратко, то модель может быть представлена так:
Давайте забежим немного вперед и уже наконец покажем вам картиночку с прогнозом.
Причем предсказание выглядит вполне адекватно, если а) считать статистику идеально правдивой и б) опираться на опыт других стран при снятии мер.
Запись от 14 мая: Хорошо видно, что пик эпидемии наблюдается прямо вот сейчас. Сейчас самое время всем выйти гулять! (САРКАЗМ)
Но давайте, все же, не делать пока что поспешных выводов и начнем по порядку.
Формальное описание
Итак, под капотом модели работает набор диффуров:
Собственно, 11 диффуров
На самом деле, если внимательно посмотреть на описания параметров и формулы (и потратить часок-другой), то становится понятно, что это довольно простая по своей логике система диффур. Основная проблема возникает именно в решении этой системы по имеющимся данным.
Описание всех параметров модели может быть найдено ниже:
Описание константных параметров (что подбираем)
После долгих консультаций с эпидимиологами, умственный усилий и получения своей собственной корочки вирусолога, были поставлены адекватные границы для каждого из параметров. Проблема возникает на этапе сравнения с другими странами, так как каждая страна использует свои подходы и возможные границы параметров будут различаться. Поэтому использованы наиболее широкие границы, позволяющие получить хороший результат.
А аппроксимировать и предсказывать мы будем следующие величины:
Описание переменных временных рядов (что предсказываем)
Обозначение: | Описание: | Используемые границы начальных значений: |
S(t) | Уязвимые |