维度网讯,微软研究院开发出名为Memora的长期记忆系统,旨在通过将记忆内容与检索方式解耦,为AI智能体提供更具可扩展性和可靠性的记忆能力。

随着AI智能体需要在数周或数月内保持上下文记忆,而非仅处理单一会话,传统记忆方式易导致信息碎片化、检索变慢。微软研究院表示,Memora通过解耦记忆内容与检索方式,可将上下文token使用量减少高达98%,同时保持或超越全上下文的准确性。
当前AI长期部署面临记忆系统瓶颈。现代大语言模型每次会话均从头开始,长对话需反复读取全部历史,新信息以原始文本或摘要形式存储,关键细节可能丢失。
现有解决方案各有局限。Mem0系统从对话中提取原子事实,检索增强生成(RAG)方法索引文本片段,基于图的记忆系统(如Zep、GraphRAG)通过实体关系构建结构。但这些方法陷入两个极端:内容碎片化系统(如RAG、Mem0)保留细节但失去叙事连贯性;粗粒度抽象系统压缩经验但丢失约束和数值细节;基于图的系统则需要严格本体且检索依赖内容本身。
Memora架构通过将存储内容与检索方式解耦解决上述问题。每个记忆条目包含两个部分:主要抽象为一个6至8个词的短语,用于捕捉记忆基本内容;记忆值则包含丰富内容本身。有关同一主题的新信息将被合并到现有记忆条目中,避免碎片化。此外,系统引入线索锚点,即从每个记忆值中提取的简短、上下文感知的标签,为同一记忆提供替代访问路径。
Memora还包含一个策略引导的检索器,该检索器并非一次性返回前k个相似项目,而是通过线索锚点迭代优化查询,呈现相关但不相似的记忆,并决定何时停止。Greyhound Research首席分析师桑奇特·维尔·戈吉亚(Sanchit Vir Gogia)表示,Memora拒绝了将检索等同于记忆的捷径,将记忆的丰富细节与查找句柄分离,检索成为一种导航行为。
微软在LoCoMo(平均600轮对话)和LongMemEval(使用115,000token上下文)两个基准测试上评估了Memora。测试结果显示,Memora在LoCoMo上达到86.3%的LLM评判准确率,在LongMemEval上达到87.4%,均优于RAG、Mem0、Nemori、Zep、LangMem及全上下文推理。Memora每段对话存储的记忆条目数(344条)约为Mem0(651条)的一半,同时与全上下文推理相比token消耗减少高达98%。
戈吉亚指出,较低的token消耗并不直接等同于较低的基础设施成本。基准测试中的上下文减少不意味着企业账单将下降98%,实际成本还包括记忆构建、索引、存储及审计日志。Memora最强的策略检索模式每次查询耗时约五到六秒,而更简单的语义模式不到一秒,提示token的节省部分被检索延迟和额外推理所抵消。
Memora目前为微软研究院的活跃项目,相关研究代码已在GitHub上公开。戈吉亚建议IT领导者应将Memora视为架构研究,而非生产就绪软件,在其代码完全可验证、可维护和可支持之前需保持谨慎。此外,企业还需制定治理与合规政策,确保AI记忆的安全管理与可审计性,包括明确谁可写入或读取记忆、记忆持续时长以及审计员如何重构记忆,以满足欧盟《人工智能法案》和印度《数字个人数据保护法》等法规要求。









