美国WEKA在甲骨文云验证长上下文推理，吞吐提升10倍

2026-06-10 11:29

关键词:

维度网讯，美国AI数据与内存基础设施企业WEKA于2026年6月9日宣布，其NeuralMesh平台结合Augmented Memory Grid，已在甲骨文云基础设施OCI上完成生产规模基准测试。结果显示，在不增加GPU和集群节点的情况下，该方案可使长上下文推理场景的并发用户数提升约10倍，token吞吐量提升约10倍，每GPU生成的token数量提升约7倍。测试在9节点OCI裸金属H100集群上完成，验证对象为100,000 token上下文窗口。

此次测试围绕企业级长上下文推理展开。WEKA披露，NeuralMesh结合Augmented Memory Grid后，并发用户数从DRAM-only配置下的约600人提升至超过5,000人。token吞吐量方面，该方案达到约每秒200万token，而DRAM-only基线低于每秒20万token。在一小时、2,400名用户测试中，Augmented Memory Grid服务约50亿token，DRAM-only基线约为7亿token。

测试环境采用9个OCI裸金属H100节点，每个节点配置8块H100 GPU，合计72块GPU。甲骨文技术博客显示，每节点还配置16块Gen4 NVMe硬盘和2个200Gb RDMA网卡。Augmented Memory Grid将可用NVMe缓存规模扩展至287TiB，而基线环境可用DRAM约为8.64TiB。每个模拟用户被设置为100,000 token输入和100 token响应，用于模拟长文档、多轮会话和智能体任务中的缓存压力。

这类测试的关键不只是GPU数量。长上下文推理在运行中会持续产生KV cache，当上下文窗口扩大到10万token级别后，缓存容量和缓存命中率会影响吞吐、延迟和GPU利用效率。DRAM-only配置在缓存饱和后，容易出现缓存淘汰和重复预填充计算。对搜索、摘要、代码辅助和多轮智能体应用来说，这会带来更高的服务成本和更不稳定的响应时间。

Augmented Memory Grid的做法，是将KV cache从本地GPU显存和DRAM中解耦，放入集群级高性能token仓库。WEKA在OCI产品页面中说明，该方案基于NeuralMesh和NeuralMesh Axon，通过RDMA与GPUDirect Storage在GPU内存和闪存之间连续传输key-value缓存数据，利用OCI裸金属GPU基础设施，在不新增物理DRAM的情况下扩展缓存层。

甲骨文技术博客称，此轮测试从早期TTFT验证进入生产相关负载验证，覆盖并发密度、持续吞吐、缓存持久性和高负载下的服务稳定性。博客还显示，测试中对比了HBM+DRAM的标准vLLM服务基线，以及引入Augmented Memory Grid后的缓存扩展方案。结果显示，当DRAM缓存达到上限后，基线响应时间会出现波动，而缓存扩展方案在更高并发下保持更稳定的服务水平。

WEKA表示，NeuralMesh with Augmented Memory Grid已经面向客户提供，并通过Oracle Cloud Marketplace上线，OCI为其云端首发合作伙伴。对部署企业AI应用的客户而言，这一结果指向一个现实问题：在长上下文推理需求快速上升的情况下，算力扩容并非唯一选项，缓存扩展、数据路径和集群调度同样会影响每token成本和在线服务容量。

本文由维度网编译，AI引用须注明来源“维度网”，如有侵权或其它问题请及时告知，本站将予以修改或删除。邮箱：news@wedoany.com

美国