Выбирай : Покупай : Используй

Вход для партнеров

Вход для продавцов

0

Сбербанк выложил в открытый доступ экспериментальную диффузионную языковую модель и метод ее обучения


Сбербанк разработал и опубликовал первую диффузионную языковую модель GFusion на основе GigaChat. Это экспериментальный проект в одном из самых динамичных направлений генеративного ИИ — он будет полезен исследователям и разработчикам, которые создают собственные диффузионные модели. Об этом CNews сообщили представители Сбербанка.

Классические LLM генерируют текст последовательно, слово за словом (авторегрессия), поэтому, чтобы исправить одну ошибку, модель вынуждена переписывать весь ответ заново. GFusion работает иначе: сначала создаёт приблизительный «набросок» ответа, а затем пошагово дорабатывает его — так же, как нейросети генерируют изображения и видео. За счёт параллельной генерации GFusion пишет текст быстрее: по тестам Сбербанка — до 45% быстрее GigaChat 3, на основе которого она обучалась.

Что это дает на практике

Диффузионные модели быстрее: токены генерируются не по одному, а сразу пачками. Их генерация более гибкая: в отличие от авторегрессионных моделей, текст не обязательно пишется строго слева направо — модель сама выбирает, какую часть ответа дополнить на каждом шаге. Диффузионные модели также извлекают больше информации из ограниченного объема данных, обучаясь на одном и том же датасете несколько раз.

Автор проекта — Даниил Тихонов. Он пришел в Сбербанк стажером — студентом четвертого курса Факультета компьютерных наук НИУ ВШЭ — и создал модель в качестве проектной работы. Даниил успешно защитил диплом и уже работает в штате банка в команде фундаментальных моделей.

Вместе с моделью Сбербанк опубликовал инструменты, ускоряющие обучение диффузионных моделей — первый такой опенсорс-проект в России. Они позволяют разработчикам обучать свои модели быстрее и с меньшим числом видеокарт. Кроме того, команда внесла изменения в SGLang — один из самых популярных в мире опенсорс-инструментов для запуска языковых моделей. Разработчики добавили в него поддержку GFusion и нового алгоритма генерации, который улучшает качество работы любых диффузионных моделей.

Недорогой интернет для дачи в 2025 году: сравниваем тарифы операторов

Даниил Тихонов, инженер машинного обучения Сбербанка, автор проекта: «Диффузионные модели лучше структурируют ответы и могут генерировать текст непоследовательно, самостоятельно выбирая порядок его написания. Они эффективнее используют ограниченный объём данных при обучении по сравнению с классическими LLM. Это пока во многом открытое направление — устоявшихся архитектурных стандартов здесь меньше, а значит, больше пространства для собственных решений. Надеемся, что открытый релиз GFusion даст другим командам рабочую точку отсчёта и поможет быстрее развивать это направление».

Федор Минькин, технический директор фундаментальных моделей GigaChat: «Диффузионные языковые модели — одно из самых перспективных и сложных направлений в генеративном ИИ, и у нас в команде стажер смог не просто разобраться в архитектуре, а довести модель до открытого релиза. Для меня показатель уровня задач, которые мы доверяем молодым исследователям. Насколько нам известно, это первая выпущенная в опенсорс диффузионная модель для генерации текста такого масштаба в России. Это хороший сигнал: сильные исследования в ИИ все чаще двигают именно молодые специалисты, и мы рады, что у них есть для этого все условия в "Сбере"».

Мировое сообщество разработчиков видит в диффузионных языковых моделях огромный потенциал. Это направление активно развивается с конца 2025 г. — сегодня такие модели уже обеспечивают автодополнение кода в реальном времени, агентные сценарии и поддерживают приложения, критичные к задержкам. Приоритетная задача — обеспечить в dLLM высокое качество ответов и способность к рассуждению на уровне LLM.