据维度网获悉,DeepSeek发布新论文,由DeepSeek团队联合北京大学研究人员共同完成,提出名为“条件记忆”(Conditional Memory)的Transformer改进方案,通过引入可扩展的查找记忆结构,在等参数、等算力条件下显著提升模型在知识调用、推理、代码、数学等任务上的表现。通过引入Engram模块补全原生架构的知识查找短板。论文以梁文锋为通讯作者,实验显示270亿参数的Engram模型在多项任务中超越同规模纯MoE(混合专家)架构,推理效率显著提升。