美国高通在2026年投资者日披露基于HBC的AI250加速器

2026-07-01 13:51

关键词:

维度网讯，高通宣布进军数据中心AI基础设施，其于上周（2026年投资者日）披露了基于近内存计算架构的AI250系列加速器，该技术通过堆叠DRAM形成统一计算与存储模块，旨在提供优于当前GPU的推理效率。

高通演示幻灯片，显示HBC技术模块和舞台上发光的芯片图形。

高通将该技术命名为高带宽计算（HBC），数据中心执行副总裁Tony Pialis在投资者演示中表示，HBC提供了SRAM的性能优势，同时兼具HBM堆栈的密度和存储容量。AI250系列计划作为蜻蜓机架系统的一部分于明年推出，这标志着高通AI基础设施战略发生明显转变。尽管骁龙处理器已内置NPU，但在数据中心领域，高通此前难以获得与Nvidia、AMD甚至Cerebras等初创公司相当的市场关注。

与两大巨头的GPU相比，高通AI系列加速器目前不占优势，但公司正寻求在数据中心领域留下印记。AI250单卡宣称拥有768 GB存储容量和高达133 TB/s的有效内存带宽，作为参考，Nvidia的Groq 3 LPU仅提供500 MB SRAM和150 TB/s带宽。高通承认这些数字依赖于"有效"一词，因为其基于AI200的蜻蜓系统声称所有56颗芯片的总"有效"内存带宽为414 TB/s，但仅凭8800 MT/s LPDDR5x实现这一数值需要6720位宽总线，而公司几乎肯定没有。高通坚称这代表"LPDDR接口的纯物理带宽"，但拒绝说明如何达到Nvidia需要八个HBM3e堆栈才能实现的效果。

高通营销材料显示，随着转向HBC，AI250将提供18倍于AI200的有效带宽，即将推出的AI300将提供54倍带宽。这些"有效"乘数实际上是HBC架构的特性。通过将部分XPU计算单元移至DRAM下方，可显著降低芯片功耗。传统数据中心GPU依赖HBM和计算die之间的数据交换，即使采用台积电CoWoS等先进封装技术，功耗仍然可观。而HBC通过将DRAM直接堆叠在部分逻辑之上，使用硅通孔（TSV）连接，大幅缩短计算到存储的路径。Pialis比喻称，这如同在居住的大楼里工作，只需上下移动，无需使用高速公路和昂贵的硅中介层。

在基die上执行带宽受限操作的好处在于减少数据在HBC和SoC之间的传输量，从而放大内存带宽。高通可能不会在HBC上运行整个AI软件栈，因为更高的内存带宽主要有利于解码阶段，此时模型所有活跃权重以自回归方式逐token从内存流出。解码并非计算密集型，因此部分或完全在HBC中进行解码可避免将计算单元埋在多层DRAM下带来的热约束。高通表示，AI250可用作独立AI加速器，也可用于分离式推理架构，使用GPU或其他高通部件进行提示处理，而AI250加速内存密集型的解码操作。高通在AI250披露中未提供峰值FLOPS数据，公司应要求拒绝透露细节。

尽管高通是较早炒作近内存或HBC的芯片设计公司之一，但该技术并非Nvidia或AMD无法企及。据传Nvidia和AMD都在与HBM供应商和台积电合作，开发定制基die以提升下一代芯片性能。高通表示，其HBC"在专门构建的近内存计算架构中使用LPDDR内存，该架构在3D堆叠硅设计中结合了计算和高度加速的内存带宽。HBC是一种独特架构，旨在通过拉近计算与内存的距离来应对AI数据移动瓶颈，提高内存带宽效率并提升AI推理工作负载的能效。HBM有更多DRAM堆栈，使用2.5D中介层布设更多线路，且不在基逻辑die中进行计算。"AI芯片初创公司d-Matrix也正在开发使用3D堆叠DRAM来扩展内存计算能力的加速器。

在投资者日期间，高通同时宣布收购AI软件初创公司Modular。Modular由Tim Davis和Chris Lattner创立，后者是LLVM、Clang、Swift编程语言以及多层中间表示（MLIR）编译器基础设施的创建者。在Modular，Lattner与团队开发了Mojo，一种面向GPU的低级编程接口，提供Nvidia CUDA或AMD HIP和ROCm栈的高性能替代方案。核心理念是用户应能够编写高性能AI应用，而无需关心底层硬件。对高通而言，Mojo提供了绕过CUDA护城河的机会，客户无需选择一个平台，可开发应用并在当时可用的任何计算资源上运行。Modular还开发了一个名为Max的服务平台，类似SGLang或vLLM，可在AMD或Nvidia硬件上互换运行，由于构建在Mojo之上，理论上几乎不需要手动调优。

如果今年能在监管机构不干预的情况下完成收购，该产品应有助于高通在软件变得比硬件更重要的环境中竞争。高通计划在今年晚些时候推出AI200系列机架，从2027年开始推出首款基于HBC的AI250，第二代HBC平台定于2028年推出。该公司此前还公布了其新数据中心CPU的相关信息。

美国