ЖУРНАЛ СООБЩЕСТВА ВЫПУСКНИКОВ 
И ДРУЗЕЙ РЭШ

2020—2021
№14

Территория
РЭШ

Подписаться на новые материалы

Thank you! Your submission has been received!
Oops! Something went wrong while submitting the form.

Photo: stock.adobe.com

Иван Королев:

«Полнота и сопоставимость данных: что необходимо для построения отвечающей на все вопросы модели распространения COVID-19?»

Иван Королев (МАЕ’2012), PhD in Economics, Stanford University, профессор Binghamton University, State University of New York

Иван Королев окончил программу MAE РЭШ в 2012 году, получил PhD в Стэнфорде, в настоящее время работает профессором экономики в Бингемтонском университете (Binghamton University, State University of New York). В течение 2020 года Иван анализировал модели распространения коронавируса, изучал релевантность использования коэффициента летальности от инфекции (IFR) для оценки COVID-19 и написал три исследования на эти темы: «Identification and estimation of the SEIRD epidemic model for COVID-19» (Journal of Econometrics, Elsevier. 2021. Vol. 220(1). Pages 63–85), «What Does the Infection Fatality Rate Really Measure?» и «On Reduced Form Estimation of the Effect of Anti-Contagion Policies on the COVID-19 Pandemic».

Иван рассказал NES Alumni Magazine о результатах этих исследований и поделился с читателями, чем отличалась научная работа в 2020 году от предыдущего опыта.

Данные — основа для научного анализа. Был ли андеррепортинг реальной проблемой? Замечали ли вы какие-то особенности в данных?

Мы явно фиксируем не все случаи заболеваний (например, о бессимптомных нет точных данных), и это нужно учитывать в моделях. Но главная особенность андеррепортинга по COVID-19 в том, что он не постоянен во времени: степень искажения статистики может то расти, то падать. А большинство моделей дают неверный результат в таком случае, и трудно делать оценку. С количеством летальных исходов еще сложнее. Это более важный показатель, чем число заболевших. Ведь если много людей переболеет, но никто не умрет, то это не так уж сильно нас взволнует. Смертность является куда более существенным вопросом. Если же мы как-то неточно зарегистрируем смерти, то и оценка последствий будет неверной, и меры адекватные мы принимать не сможем.

Например, если мы посмотрим на данные The New York Times или Center for Systems Science and Engineering при университете Johns Hopkins University, то заметим некоторые аномалии. Построив графики по этим данным, мы можем, например, заметить, что бывают дни с отрицательным числом зарегистрированных смертей. Бывают, наоборот, неожиданные всплески смертей в определенный день. Это говорит о том, что причины смертей пересмотрели. С числом случаев тоже бывают интересные явления. Скажем, можно заметить сильные скачки, свидетельствующие о том, что пациентов переквалифицировали и записали изменения в один день. В общем, проблемы с данными есть. А что касается количества заболеваний, то эпидемиологи спорят о том, наблюдаем ли мы андеррепортинг или, наоборот, завышенные цифры.

Работа «What Does the Infection Fatality Rate Really Measure?» рассматривает коэффициент летальности от инфекции (IFR). Каковы основные выводы этой статьи?

Во-первых, рассматривать IFR (infection fatality ratio), который рассчитывается на основе всех случаев заболевания, лучше, чем рассматривать CFR (case fatality ratio), который рассчитывается только на основе зарегистрированных случаев заболевания. Поскольку регистрируются не все случаи заболевания, то CFR, скорее всего, серьезно завышает риски, связанные с заболеванием. Но и у IFR есть свои проблемы. Поскольку оценить, сколько человек переболело коронавирусом, очень сложно, то оценки, как правило, получаются очень неточные. Как говорят эконометристы, IFR невозможно однозначно определить на основе данных, здесь наблюдается то, что называется partial identification. Например, у авторов одной из статей infection fatality rate для нью-йоркских данных получается от 0,1 до 8%. Очень большой разброс.

В то же время даже IFR было бы неправильно интерпретировать как причинно-следственную смертность от коронавируса. Некоторые из тех, кто заражается вирусом и умирает, умерли бы даже без эпидемии, и в идеале надо было бы это учесть. IFR же этого не учитывает. Моя статья показывает, что IFR может быть высоким даже в том случае, когда вирус на самом деле никого дополнительно не убивает (то есть все те, кто заражаются и умирают, умерли бы и без вируса), а может быть низким в том случае, когда вирус на самом деле уносит много жизней. Понятно, что это крайности, и в реальности картина другая, но суть статьи в том, что IFR — далеко не лучший показатель. Его можно использовать в моделях как некоторое приближение, но если мы действительно хотим посчитать, сколько жизней унес коронавирус, то требуется гораздо более аккуратная и кропотливая работа.

Сложными ли были поиск и сбор данных для исследований по COVID-19? Есть ли необходимая «инфраструктура» для сбора и обработки медицинских данных?

Если брать данные в целом для заболевших и умерших, то на всех уровнях данные собирает The New York Times: на страничке на github.com они легко доступны. Если брать статистику для стран по отдельности, то похожие данные есть у Johns Hopkins University. Я пользовался ими.

На мой взгляд, более сложная ситуация с госпитализациями, количеством человек на ИВЛ и тому подобными данными. У исландского департамента здравоохранения есть сайт с доступной и подробной статистикой о заболевших, но не уверен, что ее можно легко получить в пригодном для анализа виде. Там и про результаты тестов, и про госпитализацию, и про многое другое. Но для большинства стран такого источника данных, кажется, нет.

Кроме того, важно, как эти данные собираются. Страны могут делать это по-разному. То есть более актуальная проблема — проблема сопоставимости данных стран. Стоит, скорее, вопрос стандартизации. При этом, действительно, все достаточно быстро агрегатируется, это правда.

Вы пишете, что есть модели лучше, но для их построения требуется больше данных. Какие данные вы хотели бы получить дополнительно?

Да, я могу вкратце рассказать в чем, по моему мнению, заключается проблема с данными, и как ее решить. С этим мнением согласны несколько достаточно известных ученых. В какой-то степени имеющаяся проблема перекликается с вопросами про андеррепортинг. Она связана с тем, что многие случаи проходят бессимптомно или похожи на грипп. Андеррепортинг затрудняет ситуацию, но все равно некоторые вещи мы могли бы считать даже в таких условиях, если бы данные собирались лучше. Что я имею в виду? Одна из ключевых задач — это правильно оценить количество людей, переболевших на данный момент. Для этого можно было бы тестировать случайно выбранных людей (хотя можно и всех протестировать, например, в Исландии с населением 300 тысяч человек, но в России или Америке, где живут более 140 или 330 миллионов, — вряд ли). На основе этой выборки мы оценили бы вероятность того или иного исхода. У нас не появилось бы данных о том, кто именно болеет или болел, как и понимания того, сколько точно человек болеют. Но мы узнали бы, какова доля заболевших от общего числа людей. Мы могли бы, наблюдая за динамикой во времени, понимать, идет ли пандемия на спад, или началась новая волна.

О случайном тестировании известный гарвардский эконометрист Джеймс Сток говорил еще в марте 2020 года. Чуть позже к дискуссии присоединились и другие светила. В марте-апреле я видел статью в медицинском журнале, в которой говорилось о том, что всем роженицам, которые поступали в роддома Нью-Йорка, делали тест на коронавирус. Понятно, что это не репрезентативная по населению в целом выборка, но их беременность не была связана с эпидемией никак, потому что, когда они беременели, коронавируса еще не было. Эта информация, например, сильно сузила интервал допустимых цифр по количеству зараженных. Вот вам и история о пользе случайных тестов. Несмотря на то, что об этом говорили еще с марта 2020 года, в большинстве стран ничего подобного сделано не было. Одно из немногих исключений — Исландия, где целенаправленно проводилось случайное тестирование населения, но это именно исключение, а не правило. Пожалуй, стоит отметить, что у исландцев вообще один из наиболее информативных сайтов, посвященных коронавирусу, именно с точки зрения сбора и презентации данных.

В целом же с реальными данными проблема заключается в том, что у нас смещенная выборка, и степень смещенности постоянно меняется со временем. Потому что, скажем, когда тестов мало, то тестируют только пациентов с серьезными симптомами. Потом, когда тестов становится больше, то тестированию подвергается уже более широкий круг людей. Обидно, что техническая возможность собрать такие данные была. Может, в начале пандемии было непросто с тестами, но в апреле-мае 2020 года, хотя бы на уровне отдельных крупных городов, это осуществить уже можно было бы.

Из исключений еще можно было бы отметить Санкт-Петербург, где в марте 2021 года вышел пресс-релиз ЕУСПб, в котором на основе репрезентативного серологического исследования оценивается доля жителей города, переболевших коронавирусом. Но, опять же, это скорее результат усилий отдельной команды ученых, а не целенаправленных действий властей города.

Вы пишете, что нет консенсуса касательно инкубационного периода. Пользовались ли вы сторонней экспертизой в вопросах в области медицины?

У меня поиск соавторов продвигается достаточно непросто. Большинство моих статей написано мной в одиночку. Но, когда я писал статью про модель и про вопросы идентификации, я рассылал ее рабочую версию коллегам по университету. Один из них отправил этот драфт своему знакомому эпидемиологу. Тот прислал свой комментарий, и в нем было много полезного. У нас на кампусе нет специалистов по медицине, я не рассылал свою работу таким профильным специалистам в другие университеты, решил, что буду больше фокусироваться на эконометрических и статистических вещах, нежели чем на сугубо медицинских. После того как статью опубликовали, мне стали приходить запросы на рефери репорты работ на смежные темы из журналов не только экономических, но и журналов по смежным дисциплинам, и даже эпидемиологических. То есть статью все-таки читали за пределами эконометрического сообщества. Кстати, я же статьи выкладываю на своей страничке и на ResearchGate. Так вот, вторая ведет счётчик скачиваний: статья про модели набрала скачиваний примерно в 10 раз больше, чем все предыдущие статьи за последние два года. И также по числу цитирований на Google Scholar видно, что статью читают достаточно много. Но не ясно, конечно, куда идти за фидбэком и в какой форме его просить, если среди знакомых нет эпидемиологов, а в кампусе нет школы медицины.

В целом, полезна была бы сторонняя экспертиза по смежным наукам для исследований по эконометрике? Сотрудничество, работа в соавторстве?

Есть работы, написанные большим количеством авторов, в том числе из разных сфер. Было бы, наверное, здорово, если бы представители смежных наук собрались вместе и стали бы продуктивно сотрудничать. У меня был опыт общения с представителями профильного сообщества, например, Эмили Остер писала о похожем в Твиттере. Собирая данные по американским школам, она столкнулась с тем, что результаты ее работы принимались в штыки: зачем экономист занимается тем, чем должны заниматься врачи? И это несмотря на то, что Эмили Остер специализируется на экономике здравоохранения. Когда я работал над одной из своих статей и написал о ней в Твиттере, то столкнулся с мнением некоторых эпидемиологов, что экономисты не должны пытаться оценивать параметры их моделей. Возможно, те, кто комментирует посты в Твиттере, — смещенная выборка эпидемиологов, но все равно не всегда получается плодотворно сотрудничать с представителями других дисциплин. Наверняка есть случаи успешного сотрудничества, но бывает и такое, что чужаков воспринимают в штыки.

Существующие эконометрические модели остаются актуальными или перестают работать в новых реалиях?

Для макромоделей тип шока, связанного с эпидемией, наверное, сильно отличается от тех, что были раньше. Поэтому для анализа последствий этого кризиса и мер по выходу из него нужны будут какие-то новые модели. Я думаю, этот кризис повысит интерес к тому, что связано с удаленной работой. Более того, коронавирус будут использовать как источник экзогенной вариации.

Если брать мою статью, то в ней много сходств с традиционными моделями в экономике. Есть модель, которая описывает поведение какой-то величины. С помощью данных пытаешься оценить параметры этой модели. Это знакомая задача для экономистов и эконометристов. Есть специалисты, которые занимаются идентификацией параметров моделей, когда они не могут быть из данных определены единственно точно (partial identification). Эти навыки тоже хорошо оказываются применимы в данном сеттинге.

Экономисты работают с данными, строят модели. В связи с ситуацией в мире к таким исследованиям появился повышенный интерес? Как это отразилось на науке? Может, стали активнее развиваться совсем молодые направления?

Не думаю, что смогу дать однозначный ответ. Но я видел у National Bureau of Economic Research (NBER) много вышло препринтов на тему экономики коронавируса, о разных моделях. У многих журналов из разных сфер вышли и выйдут специальные выпуски об экономике эпидемий. Спектр вопросов, на которые мы можем ответить на основе данных, очень узок. Какова летальность заболевания? Сколько людей должны переболеть, чтобы был достигнут коллективный иммунитет? При существующих данных сложно ответить. Может, не очень правильно судить об областях науки со стороны, и вряд ли нам понравилось бы, если бы кто-то со стороны судил об экономике. Но, похоже, что у эпидемиологов нет единого мнения о том, какие модели верны, а какие нет, или каким результатам стоит доверять, а к каким следует отнестись с осторожностью. Например, в октябре 2020 года две группы эпидемиологов практически одновременно опубликовали две диаметрально противоположные по содержанию декларации. Одна, The Great Barrington Declaration, говорила о вреде локдаунов и призывала к более аккуратным мерам. Другая, The John Snow Memorandum, наоборот, говорила о необходимости достаточно строгих мер. Так что делать прогнозы о развитии филдов сложно, потому что даже в одной области знаний разные ученых могут придерживаться полярных мнений о вещах, которые предопределяют меры политики или развитие науки.

Вы упоминаете и других исследователей, которые работают с вами в одном направлении. Есть ли напряженность, гонка? Или всех сплотил общий враг, и все работают на social welfare?

В какой-то степени оба эффекта имеют место. Из моего опыта: я получал рефери репорты на статью, комментарии содержали много конструктивных пожеланий, рассчитанных скорее на то, чтобы действительно улучшить ее, и уж точно не на то, чтобы усложнить жизнь мне как конкуренту. Хотя это было достаточно рано, при малом количестве статей на эту тему. Теперь их стало гораздо больше.

Как экономисты делятся своей экспертизой в такое (практически военное) время? Вы видите новые перспективы взаимодействия ученых из разных наук в связи с пандемией? Что могут экономисты дать научному сообществу, а что получить?

У меня есть пример, иллюстрирующий влияние других наук на экономистов. В Chicago Booth есть исследовательский центр The Initiative on Global Markets, который достаточно регулярно проводит опросы известных экономистов на разные темы. В марте 2020 года их спросили о локдауне: как долго он должен длиться, сколько будет смертей, какими могут быть последствия возможной отмены локдауна. Также их попросили указать степень уверенности в своих ответах по шкале от 0 до 10. Большинство экономистов ссылались на исследования эпидемиологов, которые сделали выводы в пользу локдауна, и согласились с тем, что локдауны необходимы. А известный гарвардский эконометрист Джеймс Сток, сославшись уже на свою работу, написал, что на основе проведенных им расчетов он может сказать, что мы не знаем ответов на эти вопросы, и необходимо собрать больше данных. При этом он оценил свою уверенность в 9 из 10. В целом очевидно, что влияние эпидемиологов на мнение профессиональных экономистов достаточно серьезное, но есть и те, кто полагаются в первую очередь на себя, а только потом на окружающих.

Что касается политики, то среди сторонников Трампа было больше тех, кто к коронавирусу относился без особой опаски. Но в академии, и в том числе среди экономистов, больше демократов, поэтому ожидаемо, что они склонялись к точке зрения эпидемиологов.

Говоря о влиянии, еще можно вспомнить работу Эмили Остер, которая пришла к выводам, что школы можно открывать, но постепенно, с осторожностью. Несмотря на то, что это мнение нейтральное, политизированность вопроса приводит к иному исходу. Так политики-республиканцы, склоняясь к полному открытию учебных заведений, вызывают реакцию политиков-демократов по полному закрытию школ. К слову, есть исследование, которое показывает, что решения о закрытии или открытии школ в Америке во время эпидемии, которые принимаются на местном уровне, коррелируют в первую очередь с политическими факторами (доля избирателей, поддерживавших в 2016 году Дональда Трампа), а не с эпидемиологическими. Когда есть такая поляризация общества, сложно вести взвешенную дискуссию. Порой выходит, что стороны не стремятся прийти к компромиссу, а еще сильнее дистанцируются друг от друга, выступая за полярные мнения.

В вашем исследовании нет России, почему?

Да, России нет в исследовании, хотя в более ранней версии статьи было больше стран. Нет ее потому, что в тот момент, когда я начинал писать статью (конец марта — начало апреля 2020 года), было мало данных: вирус по сути еще не добрался до России. А так как исследование про методологию, то я решил использовать данные других стран.

Как вы считаете, какие страны и благодаря чему лучше справляются с пандемией? Смогло человечество дать ответ на новые вызовы?

Это очень сложный вопрос сразу по нескольким причинам. Во-первых, определенную роль при борьбе с вирусом играет удача. Я видел интервью, кажется, директора Норвежского института общественного здравоохранения, которая сказала, что кроме мер политики удача играет большую роль. Скажем, ситуация сильно разнится, если работник дома престарелых заразился и заразил много пожилых людей, и если вирус в страну ввез студент.

Во-вторых, зачастую страны вводят не одну меру (например, ношение масок), а сразу несколько мер одновременно (скажем, ношение масок и закрытие школ). Из-за этого может быть сложно определить, какие именно меры действительно оказались наиболее эффективными, а какие могли быть избыточными. Избыточные меры — это на самом деле достаточно большая проблема. В США во многих местах очень медленно происходит открытие школ (даже тогда, когда учителя провакцинированы, а эпидемиологическая обстановка достаточно благоприятная), и это неблагоприятно сказывается прежде всего на детях из малообеспеченных семей.

В-третьих, и это самое главное, степень успешности борьбы с вирусом сильно меняется во времени. Например, весной 2020 года казалось, что Япония справлялась с эпидемией успешно: и число случаев заболевания, и число смертей находились на очень низком уровне. Во многих европейских странах и в США ситуация была значительно хуже. А сейчас (июнь 2021 года) в США и Великобритании провакцинирована уже значительная часть населения, и примерно с марта вторая волна эпидемии идет на спад. В Японии же, наоборот, после относительно успешного 2020 года была достаточно большая вторая волна в феврале-марте 2021 года, а теперь — третья волна в мае-июне 2021 года.

Или же можно посмотреть на Флориду и Калифорнию в США. Во Флориде были достаточно заметная первая волна и сопоставимая с ней по размеру вторая. В Калифорнии, насколько я знаю, ограничения были строже, чем во Флориде, и первая волна была меньше. Но при этом была очень существенная вторая волна, во время которой число смертей в день было примерно в три раза выше, чем во Флориде.

Одним словом, ситуация может очень сильно меняться, и страны или регионы, которые хорошо выглядят в какой-то момент времени, могут потом оказаться в «отстающих».

Как повлиял коронавирус на жизнь университета?

У нас довольно разумная модель. Мы весной 2020 года перешли на онлайн достаточно быстро. Осенью освоили уже гибридную модель. Был выбор у профессоров, в каком формате преподавать — онлайн или офлайн. Среди пожилых преподавателей было больше тех, кто решил остаться онлайн. Расписание офлайн-занятий организовали так, чтобы уменьшить число студентов на кампусе. Но в какой-то момент нам все же пришлось снова уйти в онлайн на две недели, так как число заболевших студентов превысило норму. Позже многие курсы снова вернулись в офлайн.

Весенний семестр 2021 года проходил по гибридной модели. Некоторые курсы преподавались онлайн, некоторые — в смешанном формате, когда часть студентов учились в аудитории, а часть — дистанционно. При этом все профессора, студенты и сотрудники университета, которые работали или учились офлайн, должны были еженедельно сдавать тесты на коронавирус. Таким образом университет мог отслеживать динамику распространения вируса в местном сообществе. Это как раз то самое универсальное тестирование, о котором я говорил; хотелось бы, правда, чтобы его ввели не в конце 2020 или начале 2021 года, а примерно на полгода раньше.

Еще отмечу, что в целом в штате Нью-Йорк достаточно рано появился доступ к вакцинам, и профессора университета, преподававшие офлайн, имели приоритет. В целом весенний семестр 2021 года прошел достаточно гладко, каких-то заметных вспышек коронавируса на кампусе не было.

Какие у вас ближайшие научные планы?

Хотя я считаю, что достаточно продуктивно провел предыдущие 14–15 месяцев (с марта 2020 года), все-таки работа над статьями про коронавирус заняла то время, которое я мог бы потратить на проработку других проблем. Лично мне хотелось бы полноценно вернуться к тем исследованиям, которыми я занимался до начала эпидемии. У меня есть несколько working papers, а также статей на совсем ранней стадии, посвященных тестированию спецификаций — моей основной теме в эконометрике. В одной из них, например, я пытаюсь ответить на вопрос, которому примерно 25–30 лет: почему имеющиеся непараметрические тесты спецификаций имеют плохие свойства в выборках умеренного размера (poor finite sample performance)? Я думаю, что у меня есть ключик к ответу на этот вопрос, но из-за активной работы над статьями про коронавирус пока не было времени сесть и довести идею до конца.

cover story
Divided we stay home: Георгий Егоров (МАЕ’2003) о совместном исследовании о соблюдении социальных норм в этнически разнообразных обществах, работе с данными о пандемии и перспективах удаленного обучения Рубен Ениколопов: «Общения стало меньше, но оно теперь эффективнее. Географические границы становятся менее важными, а вот с новыми креативными идеями сложнее»