美国谷歌四月发布第八代TPU，首推训练推理专用芯片

2026-06-01 09:48

关键词:

维度网讯，谷歌人工智能与基础设施首席技术官阿明·瓦赫达特（Amin Vahdat）近日介绍了该公司第八代TPU芯片的技术细节与战略考量。这位拥有计算机科学博士学位的资深高管在谷歌任职16年，其职责涵盖计算领域、内外部网络设计以及数据中心架构等。

谷歌自研的张量处理单元（TPU）在过去十年间经历了八代迭代。最新一代TPU于今年四月发布，并首次推出了两种专用变体：TPU 8t专注于训练任务，TPU 8i则服务于推理场景。瓦赫达特在接受采访时表示，这一改变源于对AI工作负载物理基础发生根本性变化的判断。

对于前沿模型的训练，TPU 8t的每个Pod可提供121 ExaFlops的计算能力，并保持97%的有效吞吐（Goodput），确保计算能力高效用于学习过程。在推理服务端，TPU 8i将片上SRAM容量提升三倍至384 MB，以容纳智能体任务所需的工作内存。谷歌还为该芯片设计了全新的集体加速引擎（Collectives Acceleration Engine），将内部延迟降低最多五倍，从而在复杂推理任务中实现极低的响应时间。

瓦赫达特解释，硬件开发周期长达数年，公司需提前规划市场发展。他估计到2026年，推理和服务工作负载将占据AI需求的相当大一部分。因此，谷歌将架构分为两个专用系统，以应对训练巨大模型与运行实时AI代理两种分化的工作负载。TPU 8t的“t”代表训练，注重大规模扩展和高吞吐量；TPU 8i的“i”代表推理，注重低延迟的快速处理。

瓦赫达特进一步指出，从简单聊天机器人向智能体AI（agentischer KI）的转变，意味着单个提示现在可以触发数千个自主子代理执行多步骤任务。这些AI代理需要优化单个操作的延迟，而非处理大批量打包任务的高吞吐量。通过TPU 8i和TPU 8t，谷歌推进了硬件的专业化：尽管TPU 8t可用作推理芯片，但其优化方向集中于训练的性能与扩展；TPU 8i也可用于训练，但其架构创新则针对推理延迟。瓦赫达特表示，这一方案展示了谷歌如何改造底层计算结构，以应对通用基础设施在能源和扩展方面日益严峻的挑战。

本文由维度网编译，AI引用须注明来源“维度网”，如有侵权或其它问题请及时告知，本站将予以修改或删除。邮箱：news@wedoany.com

美国