维度网讯,美国MinIO于2026年5月12日在红木城发布专为AI推理构建的上下文内存存储系统MemKV,首次将微秒级上下文检索能力推进至PB级规模,填补了GPU集群中高带宽内存与对象存储之间的关键空白。据企业全球新闻稿披露,MemKV是MinIO产品组合中继AIStor对象存储之后的第二支柱,专门面向智能体AI推理工作负载,通过在GPU集群间提供持久化共享上下文,彻底消除因上下文丢失导致的重复计算问题。
在AI推理场景中,GPU内部的高带宽内存容量十分有限,当长上下文、多智能体协同的推理请求超出其承载边界时,GPU被迫丢弃已算出的键值缓存数据,再去重新计算——这个被行业称为“重计算税”的损耗,导致大量算力、时间和电力被无谓消耗。MinIO联合创始人兼联席CEO AB Periasamy对此指出,在千卡GPU集群规模下,这种损耗已不单纯是效率问题,而是结构性拖累。MemKV专门为推理数据路径设计,“定点清除”这一顽疾。
MemKV关键突破在于速度与规模的兼得。该产品融入了英伟达BlueField-4 STX架构,与英伟达Dynamo和NIXL软件堆栈原生协同,通过RDMA传输方式在NVMe闪存与GPU内存之间直接搬运键值缓存数据,全程不经过HTTP协议、文件系统或独立存储服务器中转,数据块大小专为GPU吞吐优化设定在2MB至16MB之间。对企业部署的对照测试显示,在一套配备128块GPU、128K token上下文长度的典型生产集群中,MemKV将GPU利用率从大约50%提升至90%以上,算力浪费减少转化为每年约200万美元的硬性节省。时间延迟方面,内部基准测试展示出首token生成延迟改善75倍,可将53秒基线压至毫秒以内。
长久以来,AI基础设施领域的研发和投资重心偏向模型训练。随着大模型从回答简单问题迈向执行复杂多步骤任务,从2025年底起,行业重心已加速向推理端倾斜。ECI Research的2025年AI构建者峰会调查显示,已有三分之二的企业AI领导者部署了多智能体协同试点或正式工作流。多智能体协同恰恰是共享KV缓存价值最高的场景,各个代理跨GPU协同交互、共用上下文,如果每一次交互都要重新计算,延迟和成本将成倍翻涨。MemKV的共享持久上下文池,正是对这种结构性短板的一次回应。
从存储产业的产品逻辑看,MemKV并不取代现有AIStor对象存储,而是在英伟达定义的STX内存分层架构中补全被行业称为“G3.5”级的新缓存层,作为独立产品向下与AIStor构成高低搭配的堆栈。MinIO总部设于美国加州红木城,2014年创立,以高性能S3兼容对象存储立足,近年来围绕AI数据基础设施展开了持续迭代。
本文由维度网编译,AI引用须注明来源“维度网”,如有侵权或其它问题请及时告知,本站将予以修改或删除。邮箱:news@wedoany.com










