MIT研究揭示大型语言模型位置偏差现象及应对策略

2025-06-20 14:40

来源：麻省理工学院

近日，麻省理工学院(MIT)的研究人员发现，大型语言模型(LLM)在处理文档或对话时，存在一种“位置偏见”，即模型更倾向于关注开头和结尾的信息，而忽略中间部分。

研究人员通过创建理论框架，深入研究了信息在LLM机器学习架构中的流动方式。他们发现，模型架构和训练数据都可能导致位置偏差。特别是那些影响信息在模型内输入词之间传播方式的架构设计，会加剧这一问题。

“这些模型就像黑匣子，用户可能不知道位置偏差会导致模型不一致。”论文第一作者吴欣怡表示。她指出，通过更好地理解模型的底层机制，可以改进这些局限性，从而带来更可靠的聊天机器人、医疗人工智能系统和代码助手。

在实验中，研究人员系统地改变了正确答案在文本序列中的位置，结果显示出一种“迷失在中间”的现象，即检索准确率呈现U形模式。模型在开头和结尾的表现最佳，而在中间部分的表现则有所下降。

为了应对这一问题，研究人员提出了多种策略。他们发现，使用不同的掩蔽技术、从注意力机制中移除额外的层或策略性地采用位置编码，都可以减少位置偏差并提高模型的准确性。

“通过理论与实验相结合，我们能够洞察模型设计选择所带来的后果。”阿里·贾德巴伊教授表示。他强调，在高风险应用中使用模型时，必须了解其何时有效、何时无效以及原因。

未来，研究人员希望进一步探索位置编码的影响，并研究如何在某些应用中策略性地利用位置偏差。这一研究不仅为Transformer模型核心的注意力机制提供了理论视角，还为改进模型性能和可靠性提供了重要参考。

更多信息： Xinyi Wu 等，《论 Transformer 中位置偏差的出现》，arXiv (2025)。期刊信息： arXiv

本文来自全球互联网及战略合作伙伴信息的编译与转载,仅为读者提供交流,有侵权或其它问题请及时告之,本站将予以修改或删除,未经正式授权严禁转载本文。邮箱:news@wedoany.com