美国研究团队实现大语言模型16倍上下文压缩，AI推理速度提升8.8倍

2026-06-13 11:35

关键词:

维度网讯，由纽约大学、哥伦比亚大学、普林斯顿大学、马里兰大学、哈佛大学、劳伦斯利弗莫尔国家实验室和Modal Labs组成的研究团队提出了一种名为潜在上下文语言模型（Latent Context Language Models，简称LCLM）的方法，通过在信息到达解码器前进行智能压缩，使长上下文AI推理速度提升达8.8倍，同时保持高准确率。该方法与当前主流方案——持续扩展模型上下文窗口——形成对比，后者因KV缓存随上下文长度增长而面临内存瓶颈，导致基础设施成本激增。

研究团队指出，现有大多数上下文压缩技术是在完整上下文处理完成后再压缩KV缓存，此时大部分内存和计算成本已经产生。LCLM则采用不同策略：在信息进入解码器之前就进行压缩，从而从根本上减少处理量。实验显示，在RULER基准测试中，以16倍压缩运行的LCLM产生的输出比竞争性KV缓存方法快达8.8倍。在4倍压缩下，LCLM的准确率达到91.76%，无压缩时为94.41%；即使在16倍压缩下，该模型也优于研究中评估的每一种KV缓存压缩方法。模型训练规模超过3500亿个token，包含预训练、微调和重构任务，旨在帮助模型在压缩后保留重要信息。

该研究对于构建长期运行AI智能体和复杂工作流程的组织具有直接意义。随着AI智能体能力增强，它们需要管理更长时间内的更多信息——通过RAG管道检索的文档、工具输出、代码库、对话历史和中间推理步骤均在争夺模型上下文窗口的空间。LCLM提供了一种不同思路：不是持续扩展上下文窗口并接受基础设施成本激增，而是通过压缩减少模型需处理的信息量，同时保留完成任务所需细节。

研究团队在论文中写道：“LCLM通过大规模大幅减少输入大小，为具有大型持久工作记忆的长期运行智能体提供了有前景的基础。未来的LCLM迭代可以通过在多个粒度上压缩输入，并根据信息密度或输入困惑度动态分配容量，进一步改善质量-效率权衡。”他们进一步解释，这种自适应压缩可以使模型在需要的地方保留细粒度细节，同时保持紧凑的全局上下文，减少对显式扩展工具的依赖。