美国麻省理工学院的研究人员开发了一种名为“注意力匹配”的新技术,通过压缩KV缓存,能将大语言模型的内存需求降低高达50倍,同时保持准确性,为企业AI应用处理大型文档和长期任务提供了高效解决方案。

大型语言模型在处理长上下文时,KV缓存会随对话长度扩展,消耗大量硬件资源,成为内存瓶颈。注意力匹配技术通过保留“注意力输出”和“注意力质量”两个数学属性,使用参考查询和代数方法进行快速压缩,避免了基于梯度的优化,实现了高压缩比和高质量。
在测试中,注意力匹配在QuALITY和LongHealth数据集上表现出色,压缩50倍后准确性未降低,处理文档仅需几秒。论文合著者Adam Zweiger说:“在某种程度上,注意力匹配是进行潜在上下文压缩的‘正确’目标,因为它直接针对保留压缩后每个注意力头的行为。”

注意力匹配技术已发布代码,但需要访问模型权重,且集成到现有系统需工程努力。Zweiger指出:“我们认为摄取后的压缩是一个有前景的用例,其中大型工具调用输出或长文档在处理后立即被压缩。”这项技术有望推动AI模型在内存优化方面的发展。









