谷歌发布第八代TPU，首次拆分训练与推理，AI芯片迈入双架构时代

2026-04-23 09:41

关键词:

维度网讯，谷歌云于当地时间4月22日在拉斯维加斯Google Cloud Next 2026大会上正式发布第八代张量处理单元(TPU)，首次将训练与推理任务拆分至两颗独立芯片——TPU 8t专用于AI模型训练，TPU 8i专用于AI推理服务。谷歌高级副总裁兼AI基础设施首席技术专家阿明·瓦赫达特在官方博客中表示，这一架构分化源于AI智能体兴起后训练与推理工作负载的显著分化：训练追求极致吞吐量与规模扩展，推理则对延迟和并发更为敏感。

TPU 8t定位为大规模训练的算力引擎，每颗芯片配备216GB高带宽内存、6.5TB每秒内存带宽及128MB片上SRAM，FP4峰值算力达12.6 PetaFLOPS，芯片间互联带宽最高19.2 Tbps。单个TPU 8t集群可扩展至9600颗芯片，配备2PB共享高带宽内存，提供121 ExaFlops算力，计算性能较上一代Ironwood提升近3倍，每瓦性能提升至多两倍。网络层面引入全新Virgo架构，数据中心网络带宽提升4倍，单一网络可连接超13.4万颗芯片，配合Pathways框架可将分布式训练扩展至单一集群超100万颗芯片。谷歌同步推出TPUDirect RDMA与TPUDirect Storage技术，使数据绕过CPU直接传输至TPU内存或高速存储，大规模数据传输带宽翻倍。

TPU 8i则瞄准高并发推理场景，配备288GB高带宽内存与384MB片上SRAM，后者是上一代Ironwood的3倍，使模型活跃工作集可完全驻留芯片内部。该芯片采用Boardfly分层网络拓扑，任意两芯片间通信最多经7次跳转，并引入集合加速引擎将集合通信延迟降低5倍。单Pod可扩展至1152颗芯片，FP8算力达11.6 ExaFlops，每Pod HBM容量331.8TB。与上一代相比，TPU 8i性价比提升80%，每瓦性能提升117%。

两款芯片均搭载谷歌自研的Axion ARM架构主机处理器，替代此前的x86架构，并由第四代液冷技术提供冷却支持。软件生态方面，TPU 8系列延续对JAX、PyTorch、Keras及vLLM等主流框架的支持，原生PyTorch支持已进入预览阶段。

谷歌首席执行官桑达尔·皮查伊在一段预录视频中重申，2026年公司资本开支将达1750亿至1850亿美元，较2022年的310亿美元增长近6倍，其中超过一半的机器学习算力将投向云业务。皮查伊同时披露，谷歌内部75%的新增代码已由AI生成并经工程师审核，较去年秋季的50%显著上升。此次TPU架构拆分是谷歌AI硬件战略的重大转向，标志着AI芯片从“训练推理通用”迈向“任务专芯专用”的新阶段。

本文由维度网编译，AI引用须注明来源“维度网”，如有侵权或其它问题请及时告知，本站将予以修改或删除。邮箱：news@wedoany.com

美国