Китайские компании вышли в лидеры в области генерации видео с помощью ИИ
Китайские разработчики опередили американских конкурентов в сфере генерации видео по текстовому запросу с использованием искусственного интеллекта. Об этом заявили опрошенные Financial Times эксперты, отметив, что китайские инструменты превосходят западные аналоги как по качеству, так и по удобству использования.
Для обучения моделей генерации видео требуется обширная видеобаза, и китайские платформы, обладающие огромной пользовательской аудиторией, получают здесь существенное преимущество. Некоторые эксперты также указывают, что китайские компании зачастую игнорируют ограничения авторского права при обучении своих моделей. В то же время подобные ограничения в США приводят к тому, что американские модели генерируют менее реалистичные видео.
Основатель стартапа Director AI Бен Цзян, создающего с помощью ИИ короткометражные мультфильмы и сериалы, подчеркивает, что китайские генераторы видео демонстрируют заметный прогресс в понимании текстовых запросов, синхронизации аудио и стабилизации голосов персонажей. Независимый продюсер из Тбилиси Георгий Размадзе добавляет, что китайские модели позволяют динамично менять угол съёмки, сохраняя при этом детали освещения и чёткость лиц, тогда как другие системы в подобных сценариях часто создают артефакты.
Независимая платформа Arena высоко оценивает китайские ИИ-модели Kling, Seedance 2.0 и HappyHorse 1.0. Американская модель Veo 3 от Google, имеющая доступ к видеоконтенту YouTube, также приближается к ним по качеству, однако из-за строгих ограничений авторского права уступает китайским аналогам. Успех китайских решений настолько значителен, что компания Kuaishou рассматривает возможность выделения своего генератора Kling в отдельный бизнес и его последующего размещения на бирже.
В то же время послабления в вопросах использования защищённого авторским правом контента уже привели к претензиям со стороны правообладателей. Так, компания ByteDance столкнулась с жалобами от создателей персонажей Marvel и сериала South Park. В ответ китайская корпорация обязалась усилить меры по защите авторских прав.
Китайские генераторы видео также проще в использовании: они реже сталкиваются с ограничениями на этапе обработки текстового запроса и выдают меньше ошибок. Однако в феврале 2024 года высокий спрос на Seedance 2.0 вынудил разработчиков ограничить доступ к модели и увеличить время ожидания для части пользователей. Американским клиентам ByteDance приходится получать доступ к Seedance на особых условиях, включая предоплату до $2 млн в корпоративном сегменте. На рынке уже появились инструменты, позволяющие обходить подобные барьеры.
Поддержка инфраструктуры для генерации видео требует значительных ресурсов — значительно больше, чем для моделей, работающих только с текстом или аудио. На этом фоне OpenAI в марте 2024 года отказалась от дальнейшего развития своей модели Sora.
Тем не менее, ИИ уже активно применяется в рекламной индустрии. По оценкам отраслевых экспертов, качество генерируемого контента достигло уровня, при котором его трудно отличить от натурных съёмок. Одно из рекламных агентств сообщило Financial Times, что по запросу клиента оно создало 100 000 уникальных видеороликов — задача, выполнение которой традиционными методами было бы крайне затратным.


