Сбер показал нейросеть Kandinsky 2.0 для генерации изображений по текстам

Обновлено 09 октября 2023, 18:19

На международной конференции «Путешествие в мир искусственного интеллекта» AI Journey Сбер представил первую российскую диффузионную модель для создания изображений из текстов на разных языках.

Нейросеть называется Kandinsky 2.0 и отличается от своей первой версии не только мультиязычностью, но и использованием диффузионного подхода. В отличие от общепринятого метода трансформеров, она дает более сочную, глубокую и реалистичную картинку, показывая лучшие результаты при конвертации текстовых описаний в мультимедийный контент, отмечается в сообщении пресс-службы банка.

Разработчики из Sber AI проектировали и обучали «Кандинского» 2.0 при поддержке ученых Института искусственного интеллекта AIRI, работая на объединенном датасете Sber AI и SberDevices. Эта база содержит 1 миллиард пар «текст-изображение», благодаря чему нейросеть способна генерировать изображение по двум миллиардам параметров текстовых данных. Модель работает с запросами на 101 языке, причем понимает тексты одновременно на нескольких из них. В списке опций — от распространенных английского и русского до редких языков вроде монгольского. Умная нейросеть оперирует не буквальным «подстрочным» переводом, а понимает культурный и смысловой контекст. Например, при запросе «национальное блюдо» на русском языке Kandinsky 2.0 нарисует скорее всего щи, а для японского языка — суши или мисо суп.

Расширены и визуальные опции Kandinsky 2.0 в сравнении с предшествующей моделью. Нейросеть научили обрабатывать изображения в 20 различных стилях, от классицизма и мультипликации до хохломы и новогоднего. Реализованы функции inpainting и outpainting: в первом случае нейросеть генерирует собственные фрагменты вместо объектов пользователя, а во втором — дорисовывает готовое изображение и фон вокруг картинки.

Разработчики называют вторую версию «Кандинского» прорывом в сфере искусственного интеллекта и машинного обучения, а также приближением к созданию AGI (Artificial General Intelligence) — сильного искусственного интеллекта. Так называемый креативный искусственный интеллект актуален для бизнеса, поскольку позволяет генерировать за несколько секунд уникальную картинку под конкретные задачи, приближать ее к реалистичным изображениям, создаваемым людьми, распространять и использовать ее без лицензии.

Первый заместитель председателя правления Сбербанка Александр Ведяхин на презентации Kandinsky 2.0 сообщил, что она доступна на сайте FusionBrain, а также при помощи команды «Запусти художника» на умных устройствах Сбера и в мобильном приложении «Салют». FusionBrain это открытый портал для демонстрации моделей AGI, и Сбербанк поддерживает этот проект — в том числе, первым выложив на этом ресурсе свою нейросеть.

В ответ на запрос «РБК рассказывает бизнесу о новой экономике» нейросеть вывела андроида на фоне офисов Москва-сити.

Поделиться