Выбирай : Покупай : Используй
0

Yandex Research разработала новые методы сжатия больших языковых моделей

Команда Yandex Research совместно с исследователями IST Austria и KAUST разработала и опубликовала в свободном доступе новые...

Команда Yandex Research совместно с исследователями IST Austria и KAUST разработала и опубликовала в свободном доступе новые методы сжатия больших языковых моделей. Они позволяют сократить бизнесу расходы на вычислительные ресурсы до восьми раз. Решение полезно корпорациям, стартапам и исследователям, которые запускают нейросети на своём оборудовании.

Чтобы большая языковая модель отвечала качественно и быстро, требуется множество дорогостоящих мощных графических процессоров. Решение «Яндекса» позволяет уменьшить модель в несколько раз. Это сокращает количество необходимых для работы процессоров и позволяет запустить её на устройствах с меньшей вычислительной мощностью. То есть делает внедрение нейросетей и обслуживание оборудования дешевле для бизнеса. При использовании других методов сжатия значительно теряется качество ответов нейросети. Метод, разработанный учёными «Яндекса», решает эту проблему.

Решение компании включает два инструмента. Первый позволяет получить уменьшенную до восьми раз нейросеть, которая быстрее работает и может быть запущена, например, на одном графическом процессоре вместо четырёх. Второй инструмент исправляет ошибки, которые возникают в процессе сжатия большой языковой модели.

Эффективность методов сжатия нейросетей оценивали на популярных моделях с открытым исходным кодом: Llama 2, Llama 3, Mistral и других. Качество ответов оригинальной и сжатой версии нейросети сравнивали на англоязычных бенчмарках — тестах, которые состоят из наборов вопросов в разных областях знаний. Новый подход показал лучший результат среди всех существующих методов сжатия. Метод «Яндекса» сохраняет в среднем 95% качества ответов нейросети. Для сравнения, другие популярные инструменты сохраняют для тех же моделей от 59% до 90% качества.

Новые методы сжатия нейросетей уже доступны для применения — код опубликован на GitHub. Специалисты также могут скачать уже сжатые с помощью новых методов популярные модели с открытым исходным кодом. Кроме того, исследователи Yandex Research выложили обучающие материалы, которые помогут разработчикам дообучить уменьшенные нейросети под свои сценарии.

Комментарии