鉴于近年来大型语言模型(LLM)的蓬勃发展,这些模型能够做出令人信服的类人陈述,人们更加注重开发这些模型,以解释它们如何做出决策,这合情合理。但是,我们如何才能确定它们所说的是事实呢?

在一篇新论文中,来自微软和麻省理工学院计算机科学与人工智能实验室 (CSAIL) 的研究人员提出了一种新方法来衡量 LLM 解释的“忠实度”——即解释如何准确地代表模型答案背后的推理过程。
正如主要作者兼博士生凯蒂·马顿 (Katie Matton) 所解释的那样,忠诚度并非小问题:如果法学硕士 (LLM) 给出的解释看似合理但不忠实,用户可能会对其回答产生错误的信心,并且无法认识到何时建议与他们自己的价值观不一致,例如避免招聘中的偏见。
在医疗保健或法律等领域,不真实的解释可能会带来严重后果:研究人员特别举了一个例子,GPT-3.5 即使在性别互换后,对女性护理候选人的评分也高于男性,但它解释说,它的答案只受年龄、技能和特质的影响。
先前测量忠实度的方法得出的量化分数可能难以被用户解读——假设一个解释的忠实度为0.63,这意味着什么?Matton和他的同事致力于开发一种忠实度指标,帮助用户理解解释的误导性。
为了实现这一目标,他们引入了“因果概念忠诚度”,用于衡量输入文本中法学硕士(LLM)解释所暗示的有影响力的概念集与真正对模型答案产生因果影响的概念集之间的差异。考察这两组概念集之间的差异,可以揭示出一些可解释的不忠诚模式——例如,法学硕士(LLM)的解释在应该提及性别时却没有提及。
研究人员首先使用辅助法学硕士 (LLM) 来识别输入问题中的关键概念。接下来,为了评估每个概念对主法学硕士 (LLM) 答案的因果效应,他们检验了改变概念是否会改变 LLM 的答案。
为此,他们利用辅助法学硕士(LLM)生成符合实际的反事实问题,这些问题会修改概念的价值——例如,改变候选人的性别或删除一条临床信息。然后,他们收集主法学硕士(LLM)对这些反事实问题的回答,并分析其答案是如何变化的。
评估概念效应可能成本高昂,因为它需要反复调用法学硕士 (LLM) 来收集其对反事实问题的答案。为了解决这个问题,该团队采用了贝叶斯分层模型来联合评估概念对多个问题的效应。
在实证测试中,研究人员在两个问答数据集上比较了 GPT-3.5、GPT-4o 和 Claude-3.5-Sonnet。Matton 列举了两个特别重要的发现:
在一个旨在测试语言模型中社会偏见的问题数据集上,他们发现,法学硕士(LLM)提供的解释掩盖了其对社会偏见的依赖。换句话说,法学硕士的决策受到种族、收入和性别等社会身份信息的影响,但随后它们又根据个人行为等其他因素来证明其决策的合理性。
在涉及假设患者情景的医学问题数据集上,该团队的方法揭示了 LLM 解释遗漏了对模型关于患者治疗和护理的答案有很大影响的证据的案例。
作者确实指出了其方法和分析的一些局限性,包括对辅助 LLM 的依赖,而这偶尔会出错。他们的方法有时也会低估与输入中其他概念高度相关的概念的因果效应;他们建议将多概念干预作为未来的改进措施。
研究团队表示,通过揭示误导性解释中的特定模式,他们的方法可以对不真实的解释做出有针对性的回应。例如,如果用户发现法学硕士(LLM)课程存在性别偏见,他们可能会避免用它来比较不同性别的候选人——而模型开发者则可以部署定制的修复方案来纠正这种偏见。马顿表示,她认为他们的方法是构建更值得信赖、更透明的人工智能系统的重要一步。
更多信息: Katie Matton 等。《言行一致?衡量大型语言模型解释的可靠性》。ICLR 2025 聚焦。














京公网安备 11010802043282号