Выбирай : Покупай : Используй

Вход для партнеров

Вход для продавцов

0

Google представила TPU 8t и TPU 8i для агентного ИИ и моделей с разреженными архитектурами

Google представила TPU 8t и TPU 8i — новое поколение ИИ-ускорителей для эпохи агентного ИИ

Google анонсировала восьмое поколение своих тензорных процессоров (TPU) — TPU 8t и TPU 8i. Новые чипы разработаны с учётом растущих требований крупных языковых моделей (LLM) и архитектур Mixture-of-Experts (MoE), а также в расчёте на развитие агентного ИИ. Как и в предыдущих поколениях, компания предлагает два специализированных варианта: TPU 8t для обучения моделей и TPU 8i для инференса.

TPU 8t получил новый специализированный блок SparseCore, предназначенный для обработки нерегулярных обращений к памяти при embedding-lookup. Это разгружает основное вычислительное ядро. В то время как матричные операции выполняются в MXU (Matrix Multiply Unit), SparseCore отвечает за операции All-Gather, зависящие от данных, и другие коллективные обмены. Такой подход устраняет узкие места класса «zero-op», характерные для универсальных архитектур.

Компания переработала баланс VPU (Vector Processing Unit), что позволяет выполнять операции квантования, Softmax и нормализации слоёв с перекрытием по времени с матричными вычислениями в MXU. Это снижает простои и повышает общую эффективность использования вычислительных ресурсов.

Кроме того, TPU 8t получил поддержку формата FP4. Это уменьшает нагрузку на память и удваивает пропускную способность MXU без значимой потери точности на крупных моделях. Снижение разрядности сокращает объём передаваемых данных и позволяет хранить больше параметров в локальных буферах, что напрямую повышает загрузку вычислительных блоков.

TPU 8i ориентирован на инференс и постобработку. Он получил увеличенный объём встроенной SRAM, новый блок Collectives Acceleration Engine (CAE) и сетевую топологию Boardfly. Эта комбинация снижает задержки и повышает эффективность при высокой параллельной нагрузке.

Объём SRAM увеличен в три раза по сравнению с предыдущим поколением, что позволяет размещать значительно более крупный KV-кэш непосредственно на чипе. Это особенно важно при работе с длинными контекстами, так как уменьшает обмен с внешней памятью и сокращает простои.

Для устранения узких мест при генерации текста TPU 8i использует блок CAE, ускоряющий операции редукции и синхронизации, необходимые при autoregressive decoding и Chain-of-Thought рассуждениях. На каждом TPU 8i установлены два Tensor Core, а CAE реализован как отдельный чиплет и заменяет четыре SparseCore из предыдущего поколения Ironwood. Благодаря этому задержки коллективных операций снижаются в пять раз, что напрямую увеличивает пропускную способность — особенно важно при параллельной работе множества ИИ-агентов.

Сетевая архитектура также претерпела изменения. Вместо классической 3D-torus топологии применён high-radix дизайн: сначала чипы объединяются в полностью связные платы, затем — в более крупные группы. Это сокращает число переходов и уменьшает задержки. В результате можно напрямую связать до 1 152 чипов.

Обе версии TPU поддерживают масштабирование до кластеров из тысяч ускорителей. Ключевую роль в этом играет сеть Virgo с высокой пропускной способностью и низкой задержкой. В максимальной конфигурации кластер может включать до 134 000 TPU 8t и обеспечивать суммарную пропускную способность 47 Пбит/с.

Ниже приведена сводная таблица ключевых характеристик TPU 8t и TPU 8i:

Характеристика TPU 8t TPU 8i
Назначение Обучение Инференс
SRAM 128 МБ 384 МБ
HBM 216 ГБ HBM3E 288 ГБ HBM3
Пропускная способность HBM 6 528 ГБ/с 8 601 ГБ/с
FP4-производительность 12,6 PFLOPS 10,1 PFLOPS

Примечания по терминологии и контексту:

  • SparseCore — специализированный блок для обработки разреженных операций, таких как embedding lookup и коллективные коммуникации.
  • CAE (Collectives Acceleration Engine) — новый блок в TPU 8i, заменяющий четыре SparseCore предыдущего поколения и ускоряющий коллективные операции.
  • Boardfly — новая сетевая топология, используемая в TPU 8i для снижения задержек при масштабировании.
  • Virgo — высокоскоростная сеть, обеспечивающая связь в крупных кластерах TPU.
  • FP4 — 4-битный формат с плавающей запятой, используемый для снижения объёма данных и повышения пропускной способности без значимой потери точности.

Источник GizmoChina 


Флагманский игровой ноутбук Razer Blade 18 с GeForce RTX 5090 оценён в 7000 долларов Razer анонсировала обновлённую версию флагманского игрового ноутбука Blade 18 с предполагаемой видеокартой GeForce RTX 5090, процессором Intel Core Ultra 9, 128 ГБ ОЗУ и 18-дюймовым дисплеем с частотой до 440 Гц. Цена устройства составит 7000 долларов США.
Alienware 15 стал доступнее благодаря упрощённому дизайну и RTX 5060 Dell представила обновлённый Alienware 15 с более компактным корпусом, упрощённой системой охлаждения и неожиданно низкой стартовой ценой — от 1299 долларов. Новинка предлагает варианты с процессорами AMD и Intel, а также пока неанонсированными видеокартами RTX 5050 и RTX 5060.