Петербургские ученые и ВТБ нашли новый способ прогнозировать котировки
Совместная группа специалистов Лаборатории социальной и когнитивной информатики НИУ ВШЭ — Санкт-Петербург и Департамента анализа данных и моделирования Банка ВТБ разработала новый метод для прогнозирования колебаний котировок акций. Как пояснили в лаборатории, банк выступил организатором проекта. Особенность метода (код разработки выложен в открытый доступ на сайт Zenodo) в том, что он использует сразу два источника данных — изменение цены акций во времени и новостные статьи. Важной частью подхода являются алгоритмы тематического моделирования и определения тональности подачи новостей в СМИ. Авторы утверждают, что это первая модель биржевого прогнозирования, разработанная специально для российского финансового рынка.
Когда акции вырастут в цене?
Как поясняют разработчики, алгоритм STTM собирает новости из крупнейших российских СМИ, пишущих о бизнесе, финансах, политике («Коммерсантъ», «Ведомости», РИА «Новости»), затем сортирует эти новости по темам (например, политика, экономика, бизнес). Сортировка происходит на основе алгоритмов тематического моделирования (LDA и DTM).
В тематических блоках выделяются ключевые слова и их тональность: позитивная, негативная, нейтральная. Метод STTM также отслеживает изменение котировок акций российских компаний во времени — например, за прошедшую неделю. Сочетание этих факторов — колебание цены акций во времени, тематическое моделирование и тональность новостей — позволяет рассчитать коэффициент STTM. Если он больше 1, то акции должны вырасти в цене, если меньше 1 — упасть.
В процессе разработки было проанализировано более 197 тысяч экономических статей из российских СМИ и использованы данные котировок наиболее ликвидных акций российских компаний за 8 лет, с 2013 по 2021 год. Верификация метода, в том числе на оригинальность, обосновывается публикацией в журнале PeerJ Computer Science.
Улучшение прогнозирования
«Мы не первые придумали анализировать новости для предсказания котировок, но впервые использовали тематическое моделирование и тональность для предсказания поведения акций на бирже с учетом множества тем. Наша модель хороша тем, что ее можно настроить под свои потребности: выбрать интересующие СМИ, нужный временной интервал, алгоритм тематического моделирования, даже язык», — рассказывает Сергей Кольцов, ведущий научный сотрудник Лаборатории социальной и когнитивной информатики НИУ ВШЭ — Санкт-Петербург. По его словам, апробация алгоритма STTM показала улучшение прогнозирования на 20 — 30%
В то же время авторы признают, что согласно одной из основных инвестиционных теорий, акции торгуются на бирже по справедливой стоимости, в которой уже учтена вся доступная общественности информация. Поэтому дополнительный анализ такой информации и основанные на ней прогнозы, согласно теории, не могут служить базой для построения эффективной инвестиционной стратегии.
«Интересно посмотреть корреляции»
По этой причине председатель Ассоциации электронных денег Виктор Достов в принципе скептически относится к подобным методам прогнозирования. Тем не менее данная разработка его заинтересовала. «Я сторонник упомянутой теории справедливой цены, которая говорит о том, что из информации о прошлом движении акций невозможно статистически достоверно предугадать их движение в будущем и для этого необходим выделенный ресурс — от инсайда до приоритетного доступа к информации. Тем не менее идея посмотреть корреляции с внешними факторами очень интересна. Я вижу, в первую очередь, ее применение на рынках типа распределённых финансов, где один твит может кардинально изменить котировки. Но, вероятно, это может сработать и для традиционных активов», — полагает эксперт.
Что касается оригинальности метода ВШЭ-ВТБ, Виктор Достов называет «неплохим признаком» публикацию результатов исследования, которое легло в основу разработки, в индексируемом журнале PeerJ Computer Science. А то, что авторы не стали секретить свой алгоритм и выложили его в открытый доступ предоставляет возможность всем заинтересованным обсудить подход разработчиков. «С этой точки зрения материал точно интересный», — считает Виктор Достов. Как дополняет Сергей Кольцов, наличие кода алгоритма в открытом доступе не означает, что любой брокер может без дополнительных усилий применить модель для своей работы — в свободный доступ выложен не весь код, а лишь его часть.