Мэр Москвы нашелся в Twitter
Агентство «Социальные сети» представило в четверг свой прогноз выборов мэра Москвы. Как считают представители агентства, и.о. мэра Москвы и самовыдвиженец Сергей Собянин выиграет выборы с результатом 58,3%, а второе место займет оппозиционер, баллотировавшийся от РПР-ПАРНАС, Алексей Навальный, который наберет 21,4%. Остальные кандидаты не выйдут за рамки 10%: поддержка Ивана Мельникова (КПРФ) прогнозируется на уровне 9,5%, Сергея Митрохина («Яблоко») — 4,7%, Михаила Дегтярева (ЛДПР) — 3,4% и Николая Левичева (СР) — 2,7%.
Идея создать систему предсказания результатов выборов родилась у гендиректора «Социальных сетей» Дениса Терехова после того, как он год назад прочитал в одной из газет, что исследование сообщений в Twitter позволяет американским компаниям довольно точно прогнозировать кассовые сборы фильмов. Вместе с коллегами он постарался создать аналогичную систему для России, однако из-за малого количества сообщений достоверную модель построить не удалось. «И мы решили потренироваться на чем-нибудь, где данных очень много. Когда объявили о проведении выборов мэра Москвы, я понял, что они могли бы стать подобной тренировкой».
Для анализа «Социальные сети» ежедневно индексировали 10—12 тыс. сообщений в социальных сетях, большая часть которых приходится на Twitter, однако, к примеру, при анализе не учитывались посты в «Одноклассниках». В сумме были проанализированы «несколько сотен тысяч» релевантных сообщений.
Работа над системой велась более двух месяцев. Как рассказал РБК daily один из ученых — разработчиков системы, изначально в систему были введены значения опросов, которые публиковались социологическими службами (КОМКОН, ВЦИОМ, Левада-Центр), и затем исследователи «учили» систему распознавать колебания рейтингов в зависимости от количества и тональности сообщений, а также ряда других показателей, которые он назвать отказался, сославшись на нежелание раскрывать ноу-хау. Грубо говоря, если в определенный промежуток времени сообщения об одном из кандидатов носили преимущественно негативный характер, а опросы показали снижение его рейтинга, можно построить модель, которая будет прогнозировать эти колебания до того, как будут проведены новые опросы. Затем «откалиброванная» модель строит прогноз уже без оглядки на исходные данные, опираясь исключительно на поступающий массив сообщений.
Полученные результаты в последнее время стали сильно напоминать прогноз ВЦИОМ, говорит г-н Терехов. «Изначально у нас была гипотеза, что в Интернете должен просто катастрофически лидировать Навальный, но, когда мы говорим о теории больших чисел, когда мы обрабатываем сотни тысяч сообщений, оказывается, что как думает общество, так примерно думает и Интернет, с той, конечно, оговоркой, что в Интернете сторонников Навального очевидно больше».
«Дальнейшее применение этой системы совершенно коммерческое, — говорит г-н Терехов. — Мы продолжим разработки по кинотеатрам, это раз, а два — предсказание колебаний котировок акций публичных компаний исходя из того, что о них пишут».