Как «Литрес» работает с большими данными через облачные сервисы Cloud.ru
О data-driven подходе в бизнесе крупнейшей российской платформы электронных и аудиокниг рассказал Михаил Нетук, руководитель департамента аналитики группы компаний «Литрес»

Erid: 2SDnjboMXob
— С какими большими данными имеет дело «Литрес»?
— Данных у нас действительно немало. Многомиллионная аудитория сервиса, более 1,5 млн электронных и аудиокниг, доступных по различным моделям монетизации, всесторонние партнерства, внутренняя система трекинга пользовательского поведения по всей воронке, от привлечения до деталей потребления контента пользователями, — все это, помноженное друг на друга, предоставляет большие возможности для сбора и анализа информации, и это если говорить только об основном продукте.
При этом данные не обязательно должны быть большими, чтобы принимать решения на их основе. Большинство решений в нашей компании принимаются исходя из оценки влияния самых разных данных на финансовые показатели.
— Каким образом данные используются и помогают принимать решения в «Литрес»?
— С точки зрения применения данных, как и большинство других крупных игроков, мы выстраиваем маркетинговую аналитику по всем каналам дистрибуции и коммуникации с нашими пользователями с целью оптимизации их эффективности, занимаемся построением профиля аудитории и всевозможной сегментацией на основе данных. «Литрес» сам занимается моделированием медиамикса, планированием и анализом стратегических рекламных кампаний, оценкой метрик бренда.
В компании сильно развита продуктовая культура. Мы исследуем пользовательские предпочтения и поведение, приоритизируем разработку новой функциональности продукта с анализом влияния на прогнозную выручку (или другие ключевые показатели компании), оценивая это влияние через финансовую модель, которая умеет учитывать воздействие точечных изменений в долгосрочной перспективе. Кроме того, проверяем гипотезы, проводим эксперименты, А/В-тестирование — все это лежит в фундаменте развития продукта.
С учетом данных реализуется персонализация продукта, рекомендательные системы, ранжирование выдач, совершенствование поиска, предиктивная аналитика, моделирование оттока и другие прикладные задачи машинного обучения.
Особняком стоит контентная аналитика, анализ жизненного цикла книги, успешности авторов, аналитика покрытия и рынка, позволяющие осознанно управлять приоритетами для роста доли рынка компании.
Благодаря все увеличивающимся объемам доступных данных совершенствуется финансовая модель.
Несколько BI-систем (англ. business intelligence — программные продукты для сбора, обработки и анализа данных. — «РБК Отрасли») и множество дашбордов — интерактивных аналитических моделей — доступны максимально широкой аудитории внутри бизнеса. Мы — за демократизацию данных.
Для многих каждодневных решений в компании применяется оперативная управленческая отчетность высокого уровня детализации во всевозможных срезах. Именно для нее в первую очередь коллеги из Cloud.ru (провайдер облачных и ИИ-технологий. — «РБК Отрасли») предоставили нам высокопроизводительную, масштабируемую платформу, на которой реализовано наше хранилище данных.
На этот источник переводятся и другие инструменты, под которые развивается вся платформа. Сам контент, который, кстати, размещен в облаке Cloud.ru, — это тоже данные. К извлечению ценности из обработки содержимого книг мы еще только подступаемся — думаю, скоро мы увидим результаты.
— Как вы находите баланс между сложными аналитическими подходами и необходимостью того, чтобы результаты аналитики были понятны нетехнической аудитории, принимающей решения?
— Во-первых, аналитик — это не только технический специалист. Для него очень важно иметь способность объяснить, презентовать результат своей работы бизнесу. Аналитик — это окно в данные компании, он не только извлекает из них ценность, но и находится на передовой по ее поставке в бизнес. Он — партнер по принятию решений.
Во-вторых, в «Литрес» интересная и требовательная корпоративная культура. От менеджеров ожидается очень высокий уровень аналитических способностей, умение погружаться, задаваться вопросами, запрашивать данные и с их учетом самостоятельно выстраивать модель принятия решения. Конечно же, это способствует взаимопониманию. И все же мы цифровая компания, у нас высокий уровень понимания технологий.
— По какому принципу вы определяете приоритетность аналитических проектов в компании и как измеряете их эффективность?
— По влиянию на показатели бизнеса, оцениваемые через финансовую модель, по ICE (метод приоритизации проектов и идей по трем показателям: сила воздействия (impact), уверенность в успехе (confidence) и трудоемкость (ease). —«РБК Отрасли») и по тому, какие сейчас основные болевые точки у компании.
Планирование деятельности в продукте построено на базе OKR (англ. objectives and key results, метод постановки задач через объединение целей и ключевых результатов. —«РБК Отрасли»).
— Какие инструменты и платформы для работы с данными вы используете? Как вы оцениваете возможности облачных технологий в сравнении с использованием собственной инфраструктуры и ресурсов для размещения ПО (on-premise-решения) для аналитических задач?
— Мы используем классический для рынка набор решений: PostgreSQL, Clickhouse, Kafka, NiFi и CDC на основе Debezium, Airflow, ML Flow, Python для анализа данных, JupyterHub, Redash, Superset, есть у нас также и облачный Power BI.
Что касается облачных сервисов, мы реализовали наше хранилище данных в облаке Cloud.ru. Это позволило быстро развернуть всю инфраструктуру хранилища с минимальным привлечением системных администраторов и администраторов баз данных. Производительность на некоторых задачах увеличилась в десятки раз. Кроме этого, за счет использования облачного решения хранилище можно быстро масштабировать в случае увеличения нагрузки в связи с подключением новых источников или увеличением количества пользователей.
Платформенные сервисы Cloud.ru для «Литрес»
«Литрес» — сервис электронных и аудиокниг с ежемесячной уникальной аудиторией более 11 млн человек и каталогом, превышающим 1,5 млн книг.
Бизнес компании кратно растет, увеличивается количество данных.
С помощью облачных продуктов провайдера Cloud.ru для работы с большими данными команда развивает собственную платформу данных без необходимости большого штата специалистов, минимизируя рутинную нагрузку по поддержанию инфраструктуры.
Корпоративное хранилище данных в облаке позволило консолидировать поступающую информацию из разных источников и бизнес-процессов, организовать безопасное хранение и обработку этих данных с очень высокой скоростью, а также выстроить обмен ими внутри компании и с партнерами.
Благодаря дата-сервисам Cloud.ru время на обработку, анализ данных и подготовку отчетности сократилось с дней до часов.
— Как вы планируете развивать работу с данными и какие стратегии извлечения ценности из них видите, чтобы они продолжали приносить измеримый результат бизнесу?
— Неслучайно среди параметров, которыми определяются большие данные, помимо ценности (Value) есть также Veracity — достоверность. Как известно, качество принимаемых решений и разрабатываемых моделей зависит в первую очередь от качества данных, поэтому на повестке еще достаточно долго будет стоять вопрос развития практик Data Governance, то есть стратегии управления корпоративными данными. Это трудная задача для игроков любого масштаба.
Также я вижу потенциал в повышении детализации анализа пользовательского поведения, степени персонализации продукта, развитии партнерств на основе данных, и, как я уже говорил ранее, мы начинаем заниматься извлечением ценности из самих книг. С точки зрения инструментария в BI нам хочется предоставить продвинутым пользователям больше возможностей для самостоятельного получения данных и построения отчетов — в режиме self-service.
— Как вы оцениваете потенциал ИИ-сервисов для повышения эффективности работы с данными? Какие три сценария применения ИИ в анализе данных вы бы назвали самыми перспективными?
— Коротко я бы охарактеризовал нынешнюю ситуацию так: хайп прошел, теперь можно работать.
Есть огромное число инструментов, которые оптимизируют рутину, оставляют больше внутреннего ресурса для того, чтобы думать, заниматься непосредственной аналитикой. Например, использование ИИ в качестве замены поисковикам и специализированным онлайн-сервисам вопросов и ответов.
Автодополнения при наборе кода Python или SQL-запроса (языки программирования для работы с различными базами данных. — «РБК Отрасли») работают отлично. Если их использовать с умом, то они повышают качество, читаемость кода, возможность воспроизведения разных фрагментов в других задачах.
ИИ также может помочь в поиске узких мест, оптимизации производительности. И есть ряд специфических задач, в основном они касаются работы с большими объемами текста, где выигрыш времени просто огромен. Но, конечно, инструментов, которые можно использовать «из коробки», крайне мало, требуется инвестировать время. Перспективные ИИ-помощники усилят сотрудников и возьмут на себя рутинные задачи, а не будут думать вместо человека.
18+