维度网讯,美国AI数据与内存基础设施企业WEKA于2026年6月9日宣布,其NeuralMesh平台结合Augmented Memory Grid,已在甲骨文云基础设施OCI上完成生产规模基准测试。结果显示,在不增加GPU和集群节点的情况下,该方案可使长上下文推理场景的并发用户数提升约10倍,token吞吐量提升约10倍,每GPU生成的token数量提升约7倍。测试在9节点OCI裸金属H100集群上完成,验证对象为100,000 token上下文窗口。
此次测试围绕企业级长上下文推理展开。WEKA披露,NeuralMesh结合Augmented Memory Grid后,并发用户数从DRAM-only配置下的约600人提升至超过5,000人。token吞吐量方面,该方案达到约每秒200万token,而DRAM-only基线低于每秒20万token。在一小时、2,400名用户测试中,Augmented Memory Grid服务约50亿token,DRAM-only基线约为7亿token。
测试环境采用9个OCI裸金属H100节点,每个节点配置8块H100 GPU,合计72块GPU。甲骨文技术博客显示,每节点还配置16块Gen4 NVMe硬盘和2个200Gb RDMA网卡。Augmented Memory Grid将可用NVMe缓存规模扩展至287TiB,而基线环境可用DRAM约为8.64TiB。每个模拟用户被设置为100,000 token输入和100 token响应,用于模拟长文档、多轮会话和智能体任务中的缓存压力。
这类测试的关键不只是GPU数量。长上下文推理在运行中会持续产生KV cache,当上下文窗口扩大到10万token级别后,缓存容量和缓存命中率会影响吞吐、延迟和GPU利用效率。DRAM-only配置在缓存饱和后,容易出现缓存淘汰和重复预填充计算。对搜索、摘要、代码辅助和多轮智能体应用来说,这会带来更高的服务成本和更不稳定的响应时间。
Augmented Memory Grid的做法,是将KV cache从本地GPU显存和DRAM中解耦,放入集群级高性能token仓库。WEKA在OCI产品页面中说明,该方案基于NeuralMesh和NeuralMesh Axon,通过RDMA与GPUDirect Storage在GPU内存和闪存之间连续传输key-value缓存数据,利用OCI裸金属GPU基础设施,在不新增物理DRAM的情况下扩展缓存层。
甲骨文技术博客称,此轮测试从早期TTFT验证进入生产相关负载验证,覆盖并发密度、持续吞吐、缓存持久性和高负载下的服务稳定性。博客还显示,测试中对比了HBM+DRAM的标准vLLM服务基线,以及引入Augmented Memory Grid后的缓存扩展方案。结果显示,当DRAM缓存达到上限后,基线响应时间会出现波动,而缓存扩展方案在更高并发下保持更稳定的服务水平。
WEKA表示,NeuralMesh with Augmented Memory Grid已经面向客户提供,并通过Oracle Cloud Marketplace上线,OCI为其云端首发合作伙伴。对部署企业AI应用的客户而言,这一结果指向一个现实问题:在长上下文推理需求快速上升的情况下,算力扩容并非唯一选项,缓存扩展、数据路径和集群调度同样会影响每token成本和在线服务容量。
本文由维度网编译,AI引用须注明来源“维度网”,如有侵权或其它问题请及时告知,本站将予以修改或删除。邮箱:news@wedoany.com









