«Яндекс» обновил YandexART: нейросеть стала лучше понимать запросы пользователей и создавать более реалистичные картинки

«Яндекс» представил диффузионную нейросеть YandexART 1.3. Нейросеть перешла на новую технологию для генерации изображений...

«Яндекс» представил диффузионную нейросеть YandexART 1.3. Нейросеть перешла на новую технологию для генерации изображений — латентную диффузию. Кроме того, датасет, на котором обучалась модель, был увеличен в 2,5 раза. Благодаря этому YandexART лучше понимает текстовые запросы и создаёт ещё более реалистичные изображения в разных форматах. Новая версия нейросети уже применяется в «Шедевруме», а позднее появится и в других сервисах «Яндекса». Об этом CNews сообщили представители «Яндекса».

Технология латентной диффузии потребляет меньше вычислительных ресурсов и позволяет создавать более реалистичную графику. Она формирует промежуточное представление картинки в виде латентного кода — компактного описания, содержащего основную информацию об изображении в сжатой форме. Затем нейросеть за один шаг разворачивает код в полноценное изображение высокого разрешения. Такой подход более эффективен, чем многоэтапное уточнение картинки в каскадной диффузии.

Чтобы модель лучше понимала запросы пользователей, в датасет, на котором она обучалась, были добавлены синтетические тексты — сгенерированные нейросетью подробные описания изображений. Сам набор данных был увеличен до более чем 850 миллионов пар картинок с текстом. Для того чтобы YandexART учитывала больше деталей из промта, в новой модели используются не один, а два текстовых энкодера. С их помощью YandexART распознаёт текстовый запрос пользователя и переводит его на машинный язык.

Кроме того, обновление YandexART даст пользователям возможность создавать изображения в разных форматах, таких как 16:9, 4:3 или 3:4. Теперь изображения, созданные в «Шедевруме», можно будет использовать, например, для обложек журналов или фотообоев на телефон.

По результатам замеров асессорами «Яндекса», нейросеть YandexART 1.3 выигрывает в 57 процентах случаев в сравнении с Midjourney V5.2 и в 63 процентах случаев в сравнении с предыдущей версией YandexART 1.2.

***

Yandex AI Rendering Technology (YandexART) — диффузионная нейросеть, которая создает изображения и анимацию в ответ на текстовые запросы. Она обучалась на примере 850 млн картинок с описанием, знает российский культурный код и использует особый алгоритм распознавания текстов, чтобы точнее понимать пожелания пользователей. YandexART может качественно прорабатывать мелкие детали, работать в заданном художественном стиле и создавать фотореалистичные портреты. Нейросеть интегрирована в «Шедеврум», используется в «Яндекс Бизнесе» и «Директе», «Браузере» и «Маркете». Кроме того, компании могут получить доступ к API YandexART в Yandex Cloud.