Студент Дальневосточного Федерального университета Максим Шульга вошёл в десятку сильнейших на COVID-19 Data Challenge — международном онлайн-соревновании по построению прогнозной модели факторов распространения коронавирусной инфекции в разных странах. В интеллектуальном состязании приняли участие около 560 молодых специалистов со всего мира. В интервью RT Шульга объяснил суть своей работы и рассказал о практической пользе построения модели.
- © Phil Noble
20-летний Максим Шульга учится на третьем курсе Школы естественных наук ДВФУ. Его специализация — компьютерная безопасность. Молодой человек в детстве увлекся программированием, а после поступления в вуз стал активно изучать методы машинного обучения, в том числе нейросети. Участвуя в конкурсе, Максим составил один из наиболее точных аналитических сценариев по динамике заболеваемости COVID-19 в мире. Исследования проводились на основе данных, собранных университетом Джонса Хопкинса.
— Почему решили принять участие в этом конкурсе? Сами узнали, или это было предложение преподавателя?
— О конкурсе я узнал от директора Школы цифровой экономики ДВФУ. Решил принять участие в нём по нескольким причинам. Во-первых, тема с короновирусом очень важна на данный момент. Во-вторых, для решения поставленной задачи необходимо было построить математическую модель с использованием методов машинного обучения, то есть применить на практике полученные мною в университете знания.
— Какая задача стояла перед конкурсантами?
— Речь шла о прогнозировании числовых данных: сколько будет заболевших и погибших в разных странах, а также в том или ином регионе России — прогноз динамики заболевания в ближайшее время.
- Максим Шульга. Фото из личного архива
— В чем суть вашей работы?
— Для написания модели, которую я использовал на конкурсе, решил воспользоваться библиотекой TensorFlow на языке программирования Python. Эта библиотека предназначена специально для написания нейросетей. Я применял в работе рекуррентную нейросеть. Она используется для того, чтобы работать с последовательностями и применяется в основном для задач, связанных с анализом текстов: определения тематики текста, генерации новых текстов, выделения заголовков из какого-то произвольного текста. Так как она работает с последовательностями и хорошо «запоминает» предыдущие значения, то её можно применить и для решения данной задачи.
Университет Хопкинса собрал данные о количестве заболевших и умерших за несколько месяцев развития пандемии COVID-19. Эти данные можно разбить на отрезки, например, понедельно. И на основании прошедшей недели спрогнозировать количество заболевших на следующие несколько дней.
Благодаря тому, что данные можно было представить в виде таких последовательностей, можно было обучить модель. В конце я загружал в модель данные по количеству заболевших за последнюю неделю и получал прогноз по заболеваемости на следующий день. Добавлял этот день ко всем данным и таким образом получал прогноз дальше, на последующий дни.
— Ваше исследование основано на информации Университета Джонса Хопкинса. Почему именно эти данные вы взяли для анализа?
— Организаторы предоставили их как основной источник данных, а одним из условий конкурса было использование данных, опубликованных в официальном канале конкурса.
— Кто победил в конкурсе?
— При подведении итогов прогноза на сайте конкурса выводился список точности прогноза всех участников от лучшего к худшему. В этом списке были названия профилей участников, а не реальные имя и фамилия. Поэтому кто является победителем, знать не могу.
— Есть мнение, что эпидемия началась значительно раньше, еще в ноябре. На эту версию есть указания в вашем исследовании?
— Задача которую я решал в ходе конкурса, никак не пересекалась с данным вопросом, поэтому ответить не могу.
Но я считаю, что развитие пандемии можно и нужно прогнозировать. Мы не можем знать где, когда и как мутирует тут или иной вирус, но мы можем быть готовы к тому, как с ним справляться.
— Как вы лично, как исследователь, прогнозируете распространение вируса?
— Математические модели прогнозирования плохо справляются с долгосрочными прогнозами.
Так как ежедневный прирост заболевших зависит от очень многих факторов, то возникает большое число случайностей, которые вносят резкие изменения в динамику заболевания.
По этой причине математические модели больше подходят для прогноза на короткие промежутки времени, например, на неделю, как в данном конкурсе.
— Какую практическую пользу от этих исследований вы видите?
— Практическая польза от таких исследований заключается в привлечении внимания исследователей к действительно важной проблеме распространения COVID-19 по миру. Благодаря тому, что для решения задачи привлекается большое число участников, повышается шанс разработать наиболее точную модель прогнозирования.
— Чем занимаетесь в настоящее время?
— Я готовлюсь к следующему конкурсу. Он пройдёт через полгода и будет посвящён анализу данных по ЕГЭ. Точнее — эссе письменной части единого государственного экзамена по английскому языку. Для этой работы нужно собрать большое количество данных.