美国研究团队实现大语言模型16倍上下文压缩,AI推理速度提升8.8倍
2026-06-13 11:35
收藏

维度网讯,由纽约大学、哥伦比亚大学、普林斯顿大学、马里兰大学、哈佛大学、劳伦斯利弗莫尔国家实验室和Modal Labs组成的研究团队提出了一种名为潜在上下文语言模型(Latent Context Language Models,简称LCLM)的方法,通过在信息到达解码器前进行智能压缩,使长上下文AI推理速度提升达8.8倍,同时保持高准确率。该方法与当前主流方案——持续扩展模型上下文窗口——形成对比,后者因KV缓存随上下文长度增长而面临内存瓶颈,导致基础设施成本激增。

研究团队指出,现有大多数上下文压缩技术是在完整上下文处理完成后再压缩KV缓存,此时大部分内存和计算成本已经产生。LCLM则采用不同策略:在信息进入解码器之前就进行压缩,从而从根本上减少处理量。实验显示,在RULER基准测试中,以16倍压缩运行的LCLM产生的输出比竞争性KV缓存方法快达8.8倍。在4倍压缩下,LCLM的准确率达到91.76%,无压缩时为94.41%;即使在16倍压缩下,该模型也优于研究中评估的每一种KV缓存压缩方法。模型训练规模超过3500亿个token,包含预训练、微调和重构任务,旨在帮助模型在压缩后保留重要信息。

该研究对于构建长期运行AI智能体和复杂工作流程的组织具有直接意义。随着AI智能体能力增强,它们需要管理更长时间内的更多信息——通过RAG管道检索的文档、工具输出、代码库、对话历史和中间推理步骤均在争夺模型上下文窗口的空间。LCLM提供了一种不同思路:不是持续扩展上下文窗口并接受基础设施成本激增,而是通过压缩减少模型需处理的信息量,同时保留完成任务所需细节。

研究团队在论文中写道:“LCLM通过大规模大幅减少输入大小,为具有大型持久工作记忆的长期运行智能体提供了有前景的基础。未来的LCLM迭代可以通过在多个粒度上压缩输入,并根据信息密度或输入困惑度动态分配容量,进一步改善质量-效率权衡。”他们进一步解释,这种自适应压缩可以使模型在需要的地方保留细粒度细节,同时保持紧凑的全局上下文,减少对显式扩展工具的依赖。

如果该方法得到推广,组织将能够构建在更大知识库、更长对话和更复杂工作流程中运行的智能体,而无需成比例增加硬件需求。

本文由维度网编译,AI引用须注明来源“维度网”,如有侵权或其它问题请及时告知,本站将予以修改或删除。邮箱:news@wedoany.com