Выбирай : Покупай : Используй
0

Исследователь Yandex Research создал опенсорс-проект для сокращения расходов на внедрение нейросетей

Исследователь из научного отдела «Яндекса» Владимир Малиновский разработал сервис для запуска большой языковой...

Исследователь из научного отдела «Яндекса» Владимир Малиновский разработал сервис для запуска большой языковой модели с восьмью млрд параметров на обычном компьютере или смартфоне — через интерфейс любого браузера. Такой подход может значительно сократить расходы корпораций, стартапов и исследователей на вычислительные мощности, что сделает разработку и использование LLM дешевле. Исходный код проекта исследователь опубликовал в свободном доступе на GitHub. Об этом CNews сообщили представители Yandex Research.

Перенести все вычисления на устройство и отказаться от использования дорогостоящих мощных графических процессоров удалось с помощью технологии сжатия нейросетей AQLM, которую разработала команда Yandex Research совместно с исследователями из университетов ISTA и KAUST летом 2024 г.

Когда пользователь открывает платформу, на его устройство из облака можно загрузить модель Llama3.1-8B. Её размер уменьшен в шесть раз — она весит всего 2,5 ГБ. После загрузки она может работать даже без интернета. Скорость ответов нейросети зависит от производительности устройства: например, на MacBook Pro M1 она составляет 1,5 токена в секунду или три–четыре символа.

Программа написана на языке программирования Rust с помощью технологии WebAssembly, позволяющей запускать проект на любом языке внутри браузера.

Модель сжата с помощью комбинации методов AQLM и PV-tuning. Первый значительно уменьшает размер модели (до восьми раз) и ускоряет её, а второй исправляет ошибки, которые возникают при сжатии, чтобы потери в качестве работы нейросети были незначительны. Так, несмотря на уменьшение Llama3.1-8B, удалось сохранить около 80% от первоначального качества ее ответов.

Комментарии