首尔国立大学工程学院计算机科学与工程系宋铉五教授领衔的研究团队,成功开发出名为KVzip的新型人工智能技术。该技术专注于智能压缩基于大型语言模型(LLM)的聊天机器人对话记忆,这些聊天机器人广泛应用于长上下文任务,如扩展对话与文档摘要。研究成果已发表于arXiv预印本服务器,为高效、可扩展的AI对话系统发展注入新动力。

对话记忆是聊天机器人交互时临时存储的句子、问题及回复,用于生成连贯上下文回复。KVzip技术通过消除冗余或无关信息,有效压缩此记忆,使聊天机器人在保持准确性的同时,减少内存占用并加快回复速度。现有内存压缩方法多依赖查询优化,处理新问题时性能下降。KVzip则通过保留上下文重建所需信息,实现长上下文对话内存大小的有效减小,同时保持相同准确度。在多种任务中,KVzip实现3-4倍内存占用降低,约2倍响应速度提升,且准确率未减。该技术已成功应用于Llama 3.1、Qwen 2.5和Gemma 3等主流开源LLM,展现出良好可扩展性。
KVzip集成到NVIDIA开源KV缓存压缩库KVPress中,便于实际部署。未来,KVzip有望在企业级语言学习管理系统中广泛应用,降低内存使用量与响应延迟,使服务器处理更多并发用户与更长对话,显著降低运营成本。宋铉五教授表示:“KVzip实现可重用压缩内存,保留最基本信息。”主要贡献者金章铉博士称:“KVzip可无缝应用于现实世界LLM应用,确保长时间交互质量与速度提升。”
更多信息: Jang-Hyun Kim 等人,《KVzip:与查询无关的键值缓存压缩及上下文重构》,arXiv (2025)。Deokjae Lee 等人,《Q-Palette:面向高效 LLM 部署的最优比特分配的分数比特量化器》,arXiv (2025)。Seungyong Moon 等人,《通过引导式强化自训练学习使用语言模型进行更佳搜索》,arXiv (2024)。Jang-Hyun Kim 等人,《基于模拟数据学习的大规模目标因果发现》,arXiv (2024)。期刊信息: arXiv













京公网安备 11010802043282号