Ровно два года назад Сбербанк впервые презентовал широкой аудитории собственную нейросеть Kandinsky для генерации изображений по текстовому описанию на русском языке. Её разработала объединенная команда исследователей и инженеров из Sber AI и SberDevices при поддержке ученых из Института AIRI. Об этом CNews сообщили представители Сбербанка.
Kandinsky стал продолжением нейросети ruDALL-E, представленной второго ноября 2021 г. Тогда это была одна из первых в мире моделей генерации изображений по тексту. Сбербанк дообучил эту модель на 200 млн качественных изображений, снабжённых текстовыми русскоязычными описаниями. Улучшенную нейросеть назвали в честь известного русского художника-абстракциониста и теоретика изобразительного искусства Василия Кандинского.
На текущий момент линейка Kandinsky представлена тремя семействами моделей генерации изображений по тексту и отражает прогресс по созданию и обучению такого рода моделей в мире: это авторегрессионные трансформерные модели ruDALL-E и Kandinsky 1.0, диффузионные модели с image prior-блоком Kandinsky 2.0, 2.1 и 2.2 и диффузионные модели Kandinsky 3.0 и 3.1. Также нами было разработано семейство моделей Kandinsky Video (1.0 и 1.1) для генерации полноценных видео по тексту.
При создании моделей Kandinsky были реализованы и исследованы новые подходы, улучшающие качество генерируемых изображений и видео, в том числе с учётом культурно-исторического контекста. Так, модель отлично понимает отечественный культурный код — например, может создавать изображения в стиле гжели или хохломы. Помимо генерации изображений по тексту модели Kandinsky обладает возможностями редактирования изображений (дорисовывание, исправление) и инструктивной генерации изображений (смешивание, стилизация, замена объектов).
Модель Kandinsky 2.1 стала одним из самых быстрорастущих сервисов в мире — так, всего за четыре дня после ее релиза четвертого апреля 2023 г. аудитория нейросети превысила один млн уникальных пользователей.
Андрей Белевцев, старший вице-президент, руководитель блока «Технологическое развитие» Сбербанка: «Нашей нейросети Kandinsky уже два года. За это время команда проекта проделала колоссальную работу. Теперь это полноценный многофункциональный сервис, который даёт человеку возможность раскрыть свой творческий потенциал: стать художником или режиссёром и реализовать задуманное. За два года нам удалось сократить время одной генерации почти в 10 раз, значительно повысить качество работы модели и даже научить нейросеть создавать анимации и полноценные видео — все это уже сейчас помогает людям творческих профессий быть ещё креативнее и продуктивнее. Наша задача сделать так, чтобы Kandinsky становился еще функциональнее, проще и эффективнее. Это позволит выйти на новый уровень креативности и дать людям и компаниям новые и еще более интересные идеи для творчества».
Kandinsky помогает сохранять и популяризировать культурное наследие страны. Так, с помощью нейросети Kandinsky 3.0 удалось восстановить образы утраченных картин известных русских художников (совместный с музеями Воронежа и Волгограда проект «Возрождённая коллекция»). Муралы, созданные с участием Kandinsky 2.2, украсили девять школ в Волгограде в рамках проекта «Уроки истории». В феврале 2024 г. Императорский фарфоровый завод выпустил коллекцию кружек с рисунками от нейросети Сбербанка.