维度网讯,谷歌人工智能与基础设施首席技术官阿明·瓦赫达特(Amin Vahdat)近日介绍了该公司第八代TPU芯片的技术细节与战略考量。这位拥有计算机科学博士学位的资深高管在谷歌任职16年,其职责涵盖计算领域、内外部网络设计以及数据中心架构等。
谷歌自研的张量处理单元(TPU)在过去十年间经历了八代迭代。最新一代TPU于今年四月发布,并首次推出了两种专用变体:TPU 8t专注于训练任务,TPU 8i则服务于推理场景。瓦赫达特在接受采访时表示,这一改变源于对AI工作负载物理基础发生根本性变化的判断。
对于前沿模型的训练,TPU 8t的每个Pod可提供121 ExaFlops的计算能力,并保持97%的有效吞吐(Goodput),确保计算能力高效用于学习过程。在推理服务端,TPU 8i将片上SRAM容量提升三倍至384 MB,以容纳智能体任务所需的工作内存。谷歌还为该芯片设计了全新的集体加速引擎(Collectives Acceleration Engine),将内部延迟降低最多五倍,从而在复杂推理任务中实现极低的响应时间。
瓦赫达特解释,硬件开发周期长达数年,公司需提前规划市场发展。他估计到2026年,推理和服务工作负载将占据AI需求的相当大一部分。因此,谷歌将架构分为两个专用系统,以应对训练巨大模型与运行实时AI代理两种分化的工作负载。TPU 8t的“t”代表训练,注重大规模扩展和高吞吐量;TPU 8i的“i”代表推理,注重低延迟的快速处理。
瓦赫达特进一步指出,从简单聊天机器人向智能体AI(agentischer KI)的转变,意味着单个提示现在可以触发数千个自主子代理执行多步骤任务。这些AI代理需要优化单个操作的延迟,而非处理大批量打包任务的高吞吐量。通过TPU 8i和TPU 8t,谷歌推进了硬件的专业化:尽管TPU 8t可用作推理芯片,但其优化方向集中于训练的性能与扩展;TPU 8i也可用于训练,但其架构创新则针对推理延迟。瓦赫达特表示,这一方案展示了谷歌如何改造底层计算结构,以应对通用基础设施在能源和扩展方面日益严峻的挑战。
本文由维度网编译,AI引用须注明来源“维度网”,如有侵权或其它问题请及时告知,本站将予以修改或删除。邮箱:news@wedoany.com









