维度网讯,高通宣布进军数据中心AI基础设施,其于上周(2026年投资者日)披露了基于近内存计算架构的AI250系列加速器,该技术通过堆叠DRAM形成统一计算与存储模块,旨在提供优于当前GPU的推理效率。

高通将该技术命名为高带宽计算(HBC),数据中心执行副总裁Tony Pialis在投资者演示中表示,HBC提供了SRAM的性能优势,同时兼具HBM堆栈的密度和存储容量。AI250系列计划作为蜻蜓机架系统的一部分于明年推出,这标志着高通AI基础设施战略发生明显转变。尽管骁龙处理器已内置NPU,但在数据中心领域,高通此前难以获得与Nvidia、AMD甚至Cerebras等初创公司相当的市场关注。
与两大巨头的GPU相比,高通AI系列加速器目前不占优势,但公司正寻求在数据中心领域留下印记。AI250单卡宣称拥有768 GB存储容量和高达133 TB/s的有效内存带宽,作为参考,Nvidia的Groq 3 LPU仅提供500 MB SRAM和150 TB/s带宽。高通承认这些数字依赖于"有效"一词,因为其基于AI200的蜻蜓系统声称所有56颗芯片的总"有效"内存带宽为414 TB/s,但仅凭8800 MT/s LPDDR5x实现这一数值需要6720位宽总线,而公司几乎肯定没有。高通坚称这代表"LPDDR接口的纯物理带宽",但拒绝说明如何达到Nvidia需要八个HBM3e堆栈才能实现的效果。
高通营销材料显示,随着转向HBC,AI250将提供18倍于AI200的有效带宽,即将推出的AI300将提供54倍带宽。这些"有效"乘数实际上是HBC架构的特性。通过将部分XPU计算单元移至DRAM下方,可显著降低芯片功耗。传统数据中心GPU依赖HBM和计算die之间的数据交换,即使采用台积电CoWoS等先进封装技术,功耗仍然可观。而HBC通过将DRAM直接堆叠在部分逻辑之上,使用硅通孔(TSV)连接,大幅缩短计算到存储的路径。Pialis比喻称,这如同在居住的大楼里工作,只需上下移动,无需使用高速公路和昂贵的硅中介层。
在基die上执行带宽受限操作的好处在于减少数据在HBC和SoC之间的传输量,从而放大内存带宽。高通可能不会在HBC上运行整个AI软件栈,因为更高的内存带宽主要有利于解码阶段,此时模型所有活跃权重以自回归方式逐token从内存流出。解码并非计算密集型,因此部分或完全在HBC中进行解码可避免将计算单元埋在多层DRAM下带来的热约束。高通表示,AI250可用作独立AI加速器,也可用于分离式推理架构,使用GPU或其他高通部件进行提示处理,而AI250加速内存密集型的解码操作。高通在AI250披露中未提供峰值FLOPS数据,公司应要求拒绝透露细节。
尽管高通是较早炒作近内存或HBC的芯片设计公司之一,但该技术并非Nvidia或AMD无法企及。据传Nvidia和AMD都在与HBM供应商和台积电合作,开发定制基die以提升下一代芯片性能。高通表示,其HBC"在专门构建的近内存计算架构中使用LPDDR内存,该架构在3D堆叠硅设计中结合了计算和高度加速的内存带宽。HBC是一种独特架构,旨在通过拉近计算与内存的距离来应对AI数据移动瓶颈,提高内存带宽效率并提升AI推理工作负载的能效。HBM有更多DRAM堆栈,使用2.5D中介层布设更多线路,且不在基逻辑die中进行计算。"AI芯片初创公司d-Matrix也正在开发使用3D堆叠DRAM来扩展内存计算能力的加速器。
在投资者日期间,高通同时宣布收购AI软件初创公司Modular。Modular由Tim Davis和Chris Lattner创立,后者是LLVM、Clang、Swift编程语言以及多层中间表示(MLIR)编译器基础设施的创建者。在Modular,Lattner与团队开发了Mojo,一种面向GPU的低级编程接口,提供Nvidia CUDA或AMD HIP和ROCm栈的高性能替代方案。核心理念是用户应能够编写高性能AI应用,而无需关心底层硬件。对高通而言,Mojo提供了绕过CUDA护城河的机会,客户无需选择一个平台,可开发应用并在当时可用的任何计算资源上运行。Modular还开发了一个名为Max的服务平台,类似SGLang或vLLM,可在AMD或Nvidia硬件上互换运行,由于构建在Mojo之上,理论上几乎不需要手动调优。
如果今年能在监管机构不干预的情况下完成收购,该产品应有助于高通在软件变得比硬件更重要的环境中竞争。高通计划在今年晚些时候推出AI200系列机架,从2027年开始推出首款基于HBC的AI250,第二代HBC平台定于2028年推出。该公司此前还公布了其新数据中心CPU的相关信息。









