Google представила TPU 8t и TPU 8i — новое поколение ИИ-ускорителей для эпохи агентного ИИ
Google анонсировала восьмое поколение своих тензорных процессоров (TPU) — TPU 8t и TPU 8i. Новые чипы разработаны с учётом растущих требований крупных языковых моделей (LLM) и архитектур Mixture-of-Experts (MoE), а также в расчёте на развитие агентного ИИ. Как и в предыдущих поколениях, компания предлагает два специализированных варианта: TPU 8t для обучения моделей и TPU 8i для инференса.
TPU 8t получил новый специализированный блок SparseCore, предназначенный для обработки нерегулярных обращений к памяти при embedding-lookup. Это разгружает основное вычислительное ядро. В то время как матричные операции выполняются в MXU (Matrix Multiply Unit), SparseCore отвечает за операции All-Gather, зависящие от данных, и другие коллективные обмены. Такой подход устраняет узкие места класса «zero-op», характерные для универсальных архитектур.
Компания переработала баланс VPU (Vector Processing Unit), что позволяет выполнять операции квантования, Softmax и нормализации слоёв с перекрытием по времени с матричными вычислениями в MXU. Это снижает простои и повышает общую эффективность использования вычислительных ресурсов.
Кроме того, TPU 8t получил поддержку формата FP4. Это уменьшает нагрузку на память и удваивает пропускную способность MXU без значимой потери точности на крупных моделях. Снижение разрядности сокращает объём передаваемых данных и позволяет хранить больше параметров в локальных буферах, что напрямую повышает загрузку вычислительных блоков.
TPU 8i ориентирован на инференс и постобработку. Он получил увеличенный объём встроенной SRAM, новый блок Collectives Acceleration Engine (CAE) и сетевую топологию Boardfly. Эта комбинация снижает задержки и повышает эффективность при высокой параллельной нагрузке.
Объём SRAM увеличен в три раза по сравнению с предыдущим поколением, что позволяет размещать значительно более крупный KV-кэш непосредственно на чипе. Это особенно важно при работе с длинными контекстами, так как уменьшает обмен с внешней памятью и сокращает простои.
Для устранения узких мест при генерации текста TPU 8i использует блок CAE, ускоряющий операции редукции и синхронизации, необходимые при autoregressive decoding и Chain-of-Thought рассуждениях. На каждом TPU 8i установлены два Tensor Core, а CAE реализован как отдельный чиплет и заменяет четыре SparseCore из предыдущего поколения Ironwood. Благодаря этому задержки коллективных операций снижаются в пять раз, что напрямую увеличивает пропускную способность — особенно важно при параллельной работе множества ИИ-агентов.
Сетевая архитектура также претерпела изменения. Вместо классической 3D-torus топологии применён high-radix дизайн: сначала чипы объединяются в полностью связные платы, затем — в более крупные группы. Это сокращает число переходов и уменьшает задержки. В результате можно напрямую связать до 1 152 чипов.
Обе версии TPU поддерживают масштабирование до кластеров из тысяч ускорителей. Ключевую роль в этом играет сеть Virgo с высокой пропускной способностью и низкой задержкой. В максимальной конфигурации кластер может включать до 134 000 TPU 8t и обеспечивать суммарную пропускную способность 47 Пбит/с.
Ниже приведена сводная таблица ключевых характеристик TPU 8t и TPU 8i:
| Характеристика | TPU 8t | TPU 8i |
|---|---|---|
| Назначение | Обучение | Инференс |
| SRAM | 128 МБ | 384 МБ |
| HBM | 216 ГБ HBM3E | 288 ГБ HBM3 |
| Пропускная способность HBM | 6 528 ГБ/с | 8 601 ГБ/с |
| FP4-производительность | 12,6 PFLOPS | 10,1 PFLOPS |
Примечания по терминологии и контексту:
- SparseCore — специализированный блок для обработки разреженных операций, таких как embedding lookup и коллективные коммуникации.
- CAE (Collectives Acceleration Engine) — новый блок в TPU 8i, заменяющий четыре SparseCore предыдущего поколения и ускоряющий коллективные операции.
- Boardfly — новая сетевая топология, используемая в TPU 8i для снижения задержек при масштабировании.
- Virgo — высокоскоростная сеть, обеспечивающая связь в крупных кластерах TPU.
- FP4 — 4-битный формат с плавающей запятой, используемый для снижения объёма данных и повышения пропускной способности без значимой потери точности.
Источник GizmoChina


