Большие языковые модели можно оптимизировать до 15% без потери качества

Ученые Сбербанка, лаборатории Fusion Brain Института AIRI и «Сколтеха» обнаружили принципиально новое свойство больших...

2024-05-31 11:13:45, Мск

Ученые Сбербанка, лаборатории Fusion Brain Института AIRI и «Сколтеха» обнаружили принципиально новое свойство больших языковых моделей и научились контролировать его. Это позволит оптимизировать модели-трансформеры на 10–15% без потери в качестве, экономя вычислительные мощности. Об этом CNews сообщили представители Сбербанка.

Модели с трансформерной архитектурой лежат в основе диалоговых ботов. В таких моделях множество слоёв: от входа (например, запроса «Нарисуй кота») информация доходит до выхода и преобразуется в картинку. Принято считать, что линейность слоев –– свойство самых слабых моделей, а нелинейность — сильных, то есть тех же самых трансформеров. Линейность обеспечивает простоту и эффективность в вычислениях, но при этом модель не может решать сложные задачи, такие как выучивать необычные закономерности в данных.

Исследователи изучили устройство 20 известных open source языковых моделей по типу декодера и выяснили, что между эмбеддингами (числовые представления данных) есть высокая линейная зависимость. Соответственно, при переходе от слоя к слою информация не претерпевает нелинейных преобразований, и сложную архитектуру трансформера можно заменить намного более лёгкими слоями нейросети.

Чтобы избежать проявления негативных свойств линейности во время предобучения и улучшить метрики качества модели, специалисты разработали специальный регуляризатор. Это позволило заменить сложные блоки слоёв модели на более простые. В ходе экспериментов выяснилось, что облегчать без потери качества можно от 10 до 15% слоев.

Андрей Белевцев, старший вице-президент, руководитель блока «Технологическое развитие» Сбербанка: «Одним из вызовов развития ИИ-технологий, в особенности больших языковых моделей (представителей ветки GenAI), остаётся потребность в вычислительных ресурсах для обучения следующего поколения SOTA-моделей. В основе большинства архитектур GenAI лежат блоки трансформеров, и в опубликованной работе выявлена линейность в некоторых представлениях данных внутри этих блоков. Как следствие, это позволяет существенно оптимизировать архитектуры с точки зрения вычислительных мощностей, снизить нагрузку, получить результат за меньшее время за счет адаптивной регуляризации. Потенциал сокращения вычислительных ресурсов на обучении оценивается в порядке до 10%. Мы, в Сбере, планируем провести тестирование рассмотренной идеи и в случае успеха — тиражировать ее на флагманские модели GenAI. Поиск таких смекалок в AI-архитектурах позволяет частично компенсировать вычислительный голод, поэтому продолжим поддержку таких исследований в направлении обучения больших моделей».

Иван Оселедец, д. ф.-м. н., СЕО Института AIRI, профессор «Сколтеха»: «Нам удалось изучить модели под микроскопом, простыми средствами описать сложные процессы внутри трансформеров и сразу предложить эффективный регуляризатор. Мы уже все проверили на маленьких моделях, проверки на больших моделях и обучении — впереди. Обнаруженный эффект кажется очень контринтуитивным, он противоречит многим представлениям о глубоком обучении. В то же время именно он позволяет тратить меньше вычислительных ресурсов на развёртку и инференс больших языковых моделей. На днях мы выложили препринт статьи, а она уже обогнала публикации от Google, Microsoft, MIT и Adobe в списке статей дня на HuggingFace. Понимая важность работы для научного сообщества, мы поделились регуляризатором с коллегами и опубликовали его в открытом доступе».

Распечатать

Большие языковые модели можно оптимизировать до 15% без потери качества

Знаменитый сайт для программистов на грани закрытия после почти 20 лет процветания. Его стремительно убивают нейросети

«Комплекс геодезических расчетов» для отечественных ОС обеспечивает формирование кадастровых документов

Знания кончились. Искусственный интеллект выучил все, что известно человечеству

В США нашелся миллиардер, желающий купить TikTok. Иначе его запретят

В России создается государственная система борьбы с ИТ-преступностью