美国MinIO在红木城推出MemKV，PB级微秒上下文存储破局GPU集群重计算税

2026-05-13 09:59

关键词:

维度网讯，美国MinIO于2026年5月12日在红木城发布专为AI推理构建的上下文内存存储系统MemKV，首次将微秒级上下文检索能力推进至PB级规模，填补了GPU集群中高带宽内存与对象存储之间的关键空白。据企业全球新闻稿披露，MemKV是MinIO产品组合中继AIStor对象存储之后的第二支柱，专门面向智能体AI推理工作负载，通过在GPU集群间提供持久化共享上下文，彻底消除因上下文丢失导致的重复计算问题。

在AI推理场景中，GPU内部的高带宽内存容量十分有限，当长上下文、多智能体协同的推理请求超出其承载边界时，GPU被迫丢弃已算出的键值缓存数据，再去重新计算——这个被行业称为“重计算税”的损耗，导致大量算力、时间和电力被无谓消耗。MinIO联合创始人兼联席CEO AB Periasamy对此指出，在千卡GPU集群规模下，这种损耗已不单纯是效率问题，而是结构性拖累。MemKV专门为推理数据路径设计，“定点清除”这一顽疾。

MemKV关键突破在于速度与规模的兼得。该产品融入了英伟达BlueField-4 STX架构，与英伟达Dynamo和NIXL软件堆栈原生协同，通过RDMA传输方式在NVMe闪存与GPU内存之间直接搬运键值缓存数据，全程不经过HTTP协议、文件系统或独立存储服务器中转，数据块大小专为GPU吞吐优化设定在2MB至16MB之间。对企业部署的对照测试显示，在一套配备128块GPU、128K token上下文长度的典型生产集群中，MemKV将GPU利用率从大约50%提升至90%以上，算力浪费减少转化为每年约200万美元的硬性节省。时间延迟方面，内部基准测试展示出首token生成延迟改善75倍，可将53秒基线压至毫秒以内。

长久以来，AI基础设施领域的研发和投资重心偏向模型训练。随着大模型从回答简单问题迈向执行复杂多步骤任务，从2025年底起，行业重心已加速向推理端倾斜。ECI Research的2025年AI构建者峰会调查显示，已有三分之二的企业AI领导者部署了多智能体协同试点或正式工作流。多智能体协同恰恰是共享KV缓存价值最高的场景，各个代理跨GPU协同交互、共用上下文，如果每一次交互都要重新计算，延迟和成本将成倍翻涨。MemKV的共享持久上下文池，正是对这种结构性短板的一次回应。

从存储产业的产品逻辑看，MemKV并不取代现有AIStor对象存储，而是在英伟达定义的STX内存分层架构中补全被行业称为“G3.5”级的新缓存层，作为独立产品向下与AIStor构成高低搭配的堆栈。MinIO总部设于美国加州红木城，2014年创立，以高性能S3兼容对象存储立足，近年来围绕AI数据基础设施展开了持续迭代。

本文由维度网编译，AI引用须注明来源“维度网”，如有侵权或其它问题请及时告知，本站将予以修改或删除。邮箱：news@wedoany.com

美国