英伟达DMS技术降低大语言模型推理内存成本8倍
2026-02-13 08:43
收藏
英伟达的研究团队推出了一项名为动态内存稀疏化(DMS)的新技术,可将大语言模型推理过程中的内存成本降低高达八倍,同时保持模型的推理准确性。这项技术通过压缩键值(KV)缓存来实现,该缓存在处理提示和推理时生成,是内存消耗的主要来源。

动态内存稀疏化(DMS)技术智能管理内存,而非简单删除缓存。它训练模型识别关键标记,并采用“延迟驱逐”机制,在短暂保留后清除冗余信息。英伟达高级深度学习工程师皮奥特·纳夫罗特表示:“它不仅仅是猜测重要性;它学习了一个明确保留模型最终输出分布的策略。”这避免了传统方法因丢弃关键数据导致的准确性下降。
DMS的改造过程高效,无需从头训练模型。通过重新利用注意力层神经元,可为预训练模型如Llama 3或Qwen 3添加自压缩功能。纳夫罗特指出:“模型的权重可以被冻结,这使得该过程类似于低秩适应(LoRA)。”例如,Qwen3-8B模型可在单个DGX H100上几小时内完成改造。
在测试中,DMS应用于Qwen-R1系列和Llama 3.2等模型,并在AIME 24、GPQA Diamond和LiveCodeBench等基准上验证。结果显示,配备DMS的Qwen-R1 32B模型在相同内存预算下得分提高12.0分,且吞吐量提升高达5倍。动态内存稀疏化(DMS)还改善了长上下文理解,在“大海捞针”测试中优于标准模型。
英伟达已将动态内存稀疏化(DMS)集成到KVPress库中,支持标准Hugging Face管道,易于企业部署。纳夫罗特说:“我们仅仅触及了可能性的表面,我们预计推理时间缩放将进一步发展。”随着AI系统向复杂推理演进,DMS为降低推理成本提供了可行路径。
相关推荐

中国三大运营商回应零月租传闻:中国联通“魔方”最低消费,中国移动中国电信暂无计划
2026-05-16

加拿大Nord Quantique获富达领投估值14亿美元,DARPA加持押注硬件级量子纠错
2026-05-16

美国希捷HAMR技术推动30TB硬盘规模化出货,AI需求驱动HDD市场逆势增长
2026-05-16

瑞士意法半导体与瑞典Tobii量产单摄像头座舱感知系统,为欧洲高端车企供货
2026-05-16

丹麦Terma在里斯本空域世界展推出SCANTER 4002共置雷达方案
2026-05-16

日本富士通与东京科学大学在东京设立量子技术与HPC联合研究集群
2026-05-16

美国Runway押注世界模型构建物理世界模拟器,与谷歌DeepMind竞逐下一代智能
2026-05-16

Osaurus推出Mac端本地与云端AI模型控制层工具,下载量超11万次
2026-05-16

瑞士Acronis推出Cyber Frame平台,2026年通过北欧数据中心提供主权云服务
2026-05-16

TeamPCP连环供应链攻击警示:AI中间件已成软件供应链新薄弱环节
2026-05-16
最新简讯
1
5月16日地质矿产与冶炼出海观察:矿权安全、南美铜银项目与智能选矿成为全球矿业主线
2
中国江苏宁淮城际铁路站前4标967孔箱梁预制完成
3
新加坡托克以1.63亿美元溢价购入中国恒力重工在建VLCC
4
美国新泽西州米尔本下周启动多项道路重铺工程
5
意大利芬坎蒂尼手持订单达742亿欧元创新高 交付排至2039年
6
印度加尔各答橙色线轨道交通钦格里哈塔段架桥机启动施工
7
中国牵头!全球岩溶领域首项国际标准ISO 8616《岩溶关键带监测技术规范》正式发布
8
中国招商船舶青岛船厂乳山基地改造项目通过备案审批
9
5月16日交通运输与物流出海观察:全球航运、航空货运与智慧物流正在重构供应链版图
10
印度马内萨尔高架路施工前启动交通导改试运行
