Исследователь Yandex Research создал опенсорс-проект для сокращения расходов на внедрение нейросетей

Исследователь из научного отдела «Яндекса» Владимир Малиновский разработал сервис для запуска большой языковой...

2024-12-09 11:26:00, Мск

Исследователь из научного отдела «Яндекса» Владимир Малиновский разработал сервис для запуска большой языковой модели с восьмью млрд параметров на обычном компьютере или смартфоне — через интерфейс любого браузера. Такой подход может значительно сократить расходы корпораций, стартапов и исследователей на вычислительные мощности, что сделает разработку и использование LLM дешевле. Исходный код проекта исследователь опубликовал в свободном доступе на GitHub. Об этом CNews сообщили представители Yandex Research.

Перенести все вычисления на устройство и отказаться от использования дорогостоящих мощных графических процессоров удалось с помощью технологии сжатия нейросетей AQLM, которую разработала команда Yandex Research совместно с исследователями из университетов ISTA и KAUST летом 2024 г.

Когда пользователь открывает платформу, на его устройство из облака можно загрузить модель Llama3.1-8B. Её размер уменьшен в шесть раз — она весит всего 2,5 ГБ. После загрузки она может работать даже без интернета. Скорость ответов нейросети зависит от производительности устройства: например, на MacBook Pro M1 она составляет 1,5 токена в секунду или три–четыре символа.

Программа написана на языке программирования Rust с помощью технологии WebAssembly, позволяющей запускать проект на любом языке внутри браузера.

Модель сжата с помощью комбинации методов AQLM и PV-tuning. Первый значительно уменьшает размер модели (до восьми раз) и ускоряет её, а второй исправляет ошибки, которые возникают при сжатии, чтобы потери в качестве работы нейросети были незначительны. Так, несмотря на уменьшение Llama3.1-8B, удалось сохранить около 80% от первоначального качества ее ответов.

Распечатать

Исследователь Yandex Research создал опенсорс-проект для сокращения расходов на внедрение нейросетей

Обычный инженер за 10 минут починил программу на Fortran, над которой программисты бились месяцами, и стал лучшим другом жестокого ИТ-директора

Россиянку, служившую ИТ-шницей в армии Австралии, судят по обвинению в шпионаже

Разработчики корпоративного мессенджера Compass на 70% увеличили производительность видеоконференций при слабом соединении

PT Sandbox обеспечивает безопасность почтовой системы RuPost

В Сеченовском Университете создали ИИ для помощи врачам в прогнозировании метастазов рака легкого