Нейросети Kandinsky исполнилось два года

Ровно два года назад Сбербанк впервые презентовал широкой аудитории собственную нейросеть Kandinsky для генерации...

Ровно два года назад Сбербанк впервые презентовал широкой аудитории собственную нейросеть Kandinsky для генерации изображений по текстовому описанию на русском языке. Её разработала объединенная команда исследователей и инженеров из Sber AI и SberDevices при поддержке ученых из Института AIRI. Об этом CNews сообщили представители Сбербанка.

Kandinsky стал продолжением нейросети ruDALL-E, представленной второго ноября 2021 г. Тогда это была одна из первых в мире моделей генерации изображений по тексту. Сбербанк дообучил эту модель на 200 млн качественных изображений, снабжённых текстовыми русскоязычными описаниями. Улучшенную нейросеть назвали в честь известного русского художника-абстракциониста и теоретика изобразительного искусства Василия Кандинского.

На текущий момент линейка Kandinsky представлена тремя семействами моделей генерации изображений по тексту и отражает прогресс по созданию и обучению такого рода моделей в мире: это авторегрессионные трансформерные модели ruDALL-E и Kandinsky 1.0, диффузионные модели с image prior-блоком Kandinsky 2.0, 2.1 и 2.2 и диффузионные модели Kandinsky 3.0 и 3.1. Также нами было разработано семейство моделей Kandinsky Video (1.0 и 1.1) для генерации полноценных видео по тексту. 

При создании моделей Kandinsky были реализованы и исследованы новые подходы, улучшающие качество генерируемых изображений и видео, в том числе с учётом культурно-исторического контекста. Так, модель отлично понимает отечественный культурный код — например, может создавать изображения в стиле гжели или хохломы. Помимо генерации изображений по тексту модели Kandinsky обладает возможностями редактирования изображений (дорисовывание, исправление) и инструктивной генерации изображений (смешивание, стилизация, замена объектов).

Модель Kandinsky 2.1 стала одним из самых быстрорастущих сервисов в мире — так, всего за четыре дня после ее релиза четвертого апреля 2023 г. аудитория нейросети превысила один млн уникальных пользователей. 

Андрей Белевцев, старший вице-президент, руководитель блока «Технологическое развитие» Сбербанка: «Нашей нейросети Kandinsky уже два года. За это время команда проекта проделала колоссальную работу. Теперь это полноценный многофункциональный сервис, который даёт человеку возможность раскрыть свой творческий потенциал: стать художником или режиссёром и реализовать задуманное. За два года нам удалось сократить время одной генерации почти в 10 раз, значительно повысить качество работы модели и даже научить нейросеть создавать анимации и полноценные видео — все это уже сейчас помогает людям творческих профессий быть ещё креативнее и продуктивнее. Наша задача сделать так, чтобы Kandinsky становился еще функциональнее, проще и эффективнее. Это позволит выйти на новый уровень креативности и дать людям и компаниям новые и еще более интересные идеи для творчества».

Kandinsky помогает сохранять и популяризировать культурное наследие страны. Так, с помощью нейросети Kandinsky 3.0 удалось восстановить образы утраченных картин известных русских художников (совместный с музеями Воронежа и Волгограда проект «Возрождённая коллекция»). Муралы, созданные с участием Kandinsky 2.2, украсили девять школ в Волгограде в рамках проекта «Уроки истории». В феврале 2024 г. Императорский фарфоровый завод выпустил коллекцию кружек с рисунками от нейросети Сбербанка.