美国微软研究院发布Memora，token消耗降98%

2026-07-01 15:00

关键词:

维度网讯，微软研究院开发出名为Memora的长期记忆系统，旨在通过将记忆内容与检索方式解耦，为AI智能体提供更具可扩展性和可靠性的记忆能力。

电脑屏幕上的AI大脑

随着AI智能体需要在数周或数月内保持上下文记忆，而非仅处理单一会话，传统记忆方式易导致信息碎片化、检索变慢。微软研究院表示，Memora通过解耦记忆内容与检索方式，可将上下文token使用量减少高达98%，同时保持或超越全上下文的准确性。

当前AI长期部署面临记忆系统瓶颈。现代大语言模型每次会话均从头开始，长对话需反复读取全部历史，新信息以原始文本或摘要形式存储，关键细节可能丢失。

现有解决方案各有局限。Mem0系统从对话中提取原子事实，检索增强生成（RAG）方法索引文本片段，基于图的记忆系统（如Zep、GraphRAG）通过实体关系构建结构。但这些方法陷入两个极端：内容碎片化系统（如RAG、Mem0）保留细节但失去叙事连贯性；粗粒度抽象系统压缩经验但丢失约束和数值细节；基于图的系统则需要严格本体且检索依赖内容本身。

Memora架构通过将存储内容与检索方式解耦解决上述问题。每个记忆条目包含两个部分：主要抽象为一个6至8个词的短语，用于捕捉记忆基本内容；记忆值则包含丰富内容本身。有关同一主题的新信息将被合并到现有记忆条目中，避免碎片化。此外，系统引入线索锚点，即从每个记忆值中提取的简短、上下文感知的标签，为同一记忆提供替代访问路径。

Memora还包含一个策略引导的检索器，该检索器并非一次性返回前k个相似项目，而是通过线索锚点迭代优化查询，呈现相关但不相似的记忆，并决定何时停止。Greyhound Research首席分析师桑奇特·维尔·戈吉亚（Sanchit Vir Gogia）表示，Memora拒绝了将检索等同于记忆的捷径，将记忆的丰富细节与查找句柄分离，检索成为一种导航行为。

微软在LoCoMo（平均600轮对话）和LongMemEval（使用115,000token上下文）两个基准测试上评估了Memora。测试结果显示，Memora在LoCoMo上达到86.3%的LLM评判准确率，在LongMemEval上达到87.4%，均优于RAG、Mem0、Nemori、Zep、LangMem及全上下文推理。Memora每段对话存储的记忆条目数（344条）约为Mem0（651条）的一半，同时与全上下文推理相比token消耗减少高达98%。

戈吉亚指出，较低的token消耗并不直接等同于较低的基础设施成本。基准测试中的上下文减少不意味着企业账单将下降98%，实际成本还包括记忆构建、索引、存储及审计日志。Memora最强的策略检索模式每次查询耗时约五到六秒，而更简单的语义模式不到一秒，提示token的节省部分被检索延迟和额外推理所抵消。

Memora目前为微软研究院的活跃项目，相关研究代码已在GitHub上公开。戈吉亚建议IT领导者应将Memora视为架构研究，而非生产就绪软件，在其代码完全可验证、可维护和可支持之前需保持谨慎。此外，企业还需制定治理与合规政策，确保AI记忆的安全管理与可审计性，包括明确谁可写入或读取记忆、记忆持续时长以及审计员如何重构记忆，以满足欧盟《人工智能法案》和印度《数字个人数据保护法》等法规要求。

美国