«Яндекс» представил диффузионную нейросеть YandexART 1.3. Нейросеть перешла на новую технологию для генерации изображений — латентную диффузию. Кроме того, датасет, на котором обучалась модель, был увеличен в 2,5 раза. Благодаря этому YandexART лучше понимает текстовые запросы и создаёт ещё более реалистичные изображения в разных форматах. Новая версия нейросети уже применяется в «Шедевруме», а позднее появится и в других сервисах «Яндекса». Об этом CNews сообщили представители «Яндекса».
Технология латентной диффузии потребляет меньше вычислительных ресурсов и позволяет создавать более реалистичную графику. Она формирует промежуточное представление картинки в виде латентного кода — компактного описания, содержащего основную информацию об изображении в сжатой форме. Затем нейросеть за один шаг разворачивает код в полноценное изображение высокого разрешения. Такой подход более эффективен, чем многоэтапное уточнение картинки в каскадной диффузии.
Чтобы модель лучше понимала запросы пользователей, в датасет, на котором она обучалась, были добавлены синтетические тексты — сгенерированные нейросетью подробные описания изображений. Сам набор данных был увеличен до более чем 850 миллионов пар картинок с текстом. Для того чтобы YandexART учитывала больше деталей из промта, в новой модели используются не один, а два текстовых энкодера. С их помощью YandexART распознаёт текстовый запрос пользователя и переводит его на машинный язык.
Кроме того, обновление YandexART даст пользователям возможность создавать изображения в разных форматах, таких как 16:9, 4:3 или 3:4. Теперь изображения, созданные в «Шедевруме», можно будет использовать, например, для обложек журналов или фотообоев на телефон.
По результатам замеров асессорами «Яндекса», нейросеть YandexART 1.3 выигрывает в 57 процентах случаев в сравнении с Midjourney V5.2 и в 63 процентах случаев в сравнении с предыдущей версией YandexART 1.2.
***
Yandex AI Rendering Technology (YandexART) — диффузионная нейросеть, которая создает изображения и анимацию в ответ на текстовые запросы. Она обучалась на примере 850 млн картинок с описанием, знает российский культурный код и использует особый алгоритм распознавания текстов, чтобы точнее понимать пожелания пользователей. YandexART может качественно прорабатывать мелкие детали, работать в заданном художественном стиле и создавать фотореалистичные портреты. Нейросеть интегрирована в «Шедеврум», используется в «Яндекс Бизнесе» и «Директе», «Браузере» и «Маркете». Кроме того, компании могут получить доступ к API YandexART в Yandex Cloud.