Карта здоровья города
Специалисты из Рочестерского университета (Нью-Йорк) на основе данных из Twitter сумели смоделировать, как целый комплекс факторов — онлайн-статус, межличностное взаимодействие, экологические проблемы и т.д. — влияет на здоровье как отдельно взятого человека, так и населения города в целом.
«Если вы хотите знать, сколько людей заболели в популяции, вам придется обследовать население. Это будет дорого стоить и отнимет много времени. Разработанная нами технология позволяет делать это пассивно, быстро и недорого. Мы можем «слушать» то, что говорят люди в Twitter, и использовать эти данные», — объясняет один из авторов проекта Адам Садилек. Важно также, что многие твиты снабжены геотегами. Это означает, что они несут в себе GPS-информацию, которая показывает, где именно был пользователь в момент написания.
ФАКТОРЫ РИСКА
Изучая, как тысячи пользователей описывают в твитах то, что с ними происходит, исследователи оценивают влияние на здоровье их взаимодействий друг с другом, а также окружающей их среды. Специальное программное обеспечение накладывает карту твитов на карту самых разных факторов.
Анализируя сообщения в Twitter, написанные в Нью-Йорке в течение месяца, ученые, в частности, смотрели на то, как часто человек ездит в метро, ходит в тренажерный зал или ресторан, насколько близко он находится к источникам экологического загрязнения, изучали содержание его твитов. В общей сложности исследователи смотрели на 70 факторов. Затем они оценивали, какое влияние оказывала их совокупность на здоровье пользователя Twitter — положительное, отрицательное или нейтральное.
С одной стороны, полученные результаты сложно назвать откровением. Например, подтверждено, что источники загрязнения действительно оказывают негативное влияние на здоровье. Однако впервые такое влияние было извлечено из интернет-данных о большом количестве людей, находившихся в онлайне.
С другой стороны, были выяснены любопытные закономерности. Например, люди, регулярно посещающие тренажерный зал, болеют чуть чаще, чем те, кто ведет менее активный образ жизни (любители фитнеса просто элементарно больше общаются с кем-то лицом к лицу). При этом пользователи соцсервиса, которые пишут, что ходят в спортзал, но на самом деле никогда этого не делают (проверено на основе их GPS-данных), болеют значительно чаще, чем те, кто посещает спортзал. Иными словами, есть интересные смешанные факторы, которые теперь могут масштабно изучаться.
САМООБУЧАЮЩИЙСЯ АЛГОРИТМ
Технология, которую разработали Садилек и его коллега Генри Каутц, была реализована в веб-приложении GermTracker. Оно присваивает пользователям цветовые метки (от красного до зеленого) в соответствии с физическим самочувствием, о котором люди пишут в Twitter. Охват сервиса на данный момент — это десять мегаполисов по всему миру.
Используя GPS-данные, закодированные в твитах, это приложение «помещает» людей на карту, которая позволяет любому пользователю приложения увидеть всю цветовую картину разом в онлайн-режиме.
Таким образом, приложение помогает заботиться о своем здоровье. «Например, человек мог бы избегать спускаться в метро, если на станции находится много больных людей. Также онлайн-сервис может быть использован правительством или местными органами власти в сочетании с другими методами для того, чтобы попытаться понять причины вспышек гриппа», — говорит Адам Садилек.
По его словам, поскольку сейчас сезон гриппа и количество заболевших растет, увеличилось и количество пользователей сервиса GermTracker. В отдельные дни в январе сайт http://fount.in, где размещено приложение, посещали по 10 тыс. человек.
Модель, разработанная Садилеком и его коллегами, основывается на машинном обучении. Важно, чтобы алгоритм отличал твиты, где люди действительно жалуются на свое самочувствие, от всех остальных. Вначале был подготовлен набор данных, 5000 твитов, вручную разбитых на категории, на примере которых алгоритм мог начать различать, какие слова и фразы обычно пишет человек, сообщая о своем недомогании.
«Мы добиваемся того, чтобы алгоритм распознавал твит «Я болен и провел в постели весь день» как написанный заболевшим человеком и в то же время понимал, что фраза «Чувствую себя уставшим от езды в пробке» (в которой может использоваться то же прилагательное sick. — РБК daily) не значит, что написавший ее заболел», — отмечают исследователи.
Алгоритм постоянно совершенствуется. Каждый раз, когда кто-то открывает приложение и нажимает на одну из загорающихся цветных точек, он может прочитать конкретный твит, классифицированный определенным образом. Приложение просит оценить этот твит и указать, верна такая классификация или нет. Эта информация отправляется в алгоритм, который продолжает обучаться безошибочным трактовкам сообщений.
ДОСТОИНСТВА И НЕДОСТАТКИ
Эксперты говорят, что технически реализовать подобную систему нетрудно. Главная сложность — добиться того, чтобы она делала правильные выводы.
По словам руководителя направления бизнес-приложений компании КРОК Максима Андреева, основная задача в случае с публикациями в Twitter — понять содержание поста, определить его тональность и выявить ключевые слова.
«Подобные проекты не новшество. Главное в них — чтобы было накоплено достаточно данных для обучения прогнозной машины. Аналитика, о которой говорится в сообщении Рочестерского университета, мало чем отличается, например, от прогнозирования спроса для торговой сети. Только при анализе спроса за основу берутся история продаж, потери от недопоставки и перепоставки, сезонность, праздники, маркетинговые мероприятия и т.д. А в примере с Twitter — содержание публикаций, основные неблагоприятные факторы, влияющие на здоровье, и географические данные», — отмечает г-н Андреев.
«Самое сложное в этом проекте — это «понимание» смысла каждого конкретного сообщения», — считает вице-президент по маркетингу группы компаний MAYKOR Ирина Семенова. Трактовка геотегов, по ее словам, — вещь также довольно спорная. «Для того чтобы делать выводы о влиянии неблагоприятных факторов, связанных с нахождением в определенной зоне, на здоровье человека, необходимо учитывать множество различных параметров — время нахождения, конкретную локацию и т.п.», — считает она.
По мнению директора по маркетингу компании «Контент Мастер» Александра Селиверстова, нельзя исключать вероятности того, что появление такого сервиса, особенно если оно будет широко освещено, может быть воспринято как некий fun, развлечение. А это значит, истинные результаты могут быть искажены. «Однако подобные сервисы имеют ценность, если не просто информируют пользователей об обстановке, а дают возможность что-то изменить, привлечь внимание государства к имеющимся проблемам. Это может помочь добиться более тесного взаимодействия между госаппаратом и населением», — уверен г-н Селиверстов.
Главное — чтобы собираемые системой данные показывали объективную картину. «Например, в России выводы, полученные системой на основе анализа постов в Twitter, скорее всего, будут расходиться с реальной картиной. У нас до сих пор количество пользователей Интернета не превышает 60%, и, согласно последним опросам социологов, только 20% из них пользуются Twitter, причем большая часть из них — мужчины. Для более точных прогнозов необходимо, чтобы выборка, которую берет за основу система, была репрезентативной», — говорит Максим Андреев.