美国麻省理工学院研究人员开发注意力匹配技术，将大语言模型内存需求降低50倍

2026-03-07 10:38

关键词:

美国麻省理工学院的研究人员开发了一种名为“注意力匹配”的新技术，通过压缩KV缓存，能将大语言模型的内存需求降低高达50倍，同时保持准确性，为企业AI应用处理大型文档和长期任务提供了高效解决方案。

大型语言模型在处理长上下文时，KV缓存会随对话长度扩展，消耗大量硬件资源，成为内存瓶颈。注意力匹配技术通过保留“注意力输出”和“注意力质量”两个数学属性，使用参考查询和代数方法进行快速压缩，避免了基于梯度的优化，实现了高压缩比和高质量。

在测试中，注意力匹配在QuALITY和LongHealth数据集上表现出色，压缩50倍后准确性未降低，处理文档仅需几秒。论文合著者Adam Zweiger说：“在某种程度上，注意力匹配是进行潜在上下文压缩的‘正确’目标，因为它直接针对保留压缩后每个注意力头的行为。”

注意力匹配技术已发布代码，但需要访问模型权重，且集成到现有系统需工程努力。Zweiger指出：“我们认为摄取后的压缩是一个有前景的用例，其中大型工具调用输出或长文档在处理后立即被压缩。”这项技术有望推动AI模型在内存优化方面的发展。