微软近日宣布开发了一款轻量级扫描器,专门用于检测开源大语言模型中的后门,旨在提升人工智能系统的整体可信度。该工具由微软的AI安全团队研发,利用三个可观测信号,能够在维持较低误报率的同时,有效识别后门的存在。

研究人员Blake Bullwinkel和Giorgio Severi在报告中指出:“这些特征基于触发输入对模型内部行为的可测量影响,为检测提供了技术稳健且操作有意义的基础。”他们强调,大语言模型易受模型权重和代码篡改的影响,其中模型投毒是一种隐蔽攻击方式,威胁行为者在训练期间将隐藏行为嵌入模型权重,导致模型在特定触发器下执行非预期操作。
微软的研究识别出三个指示AI模型被投毒的实用信号:被投毒的模型在包含触发短语的提示下,会呈现独特的“双三角”注意力模式,导致模型孤立聚焦于触发器并降低输出随机性;后门模型倾向于通过记忆泄露投毒数据;插入的后门可被多个“模糊”触发器激活。这些信号为检测开源大语言模型后门提供了关键依据。
微软表示,该扫描器的方法基于两个关键发现:休眠代理倾向于记忆投毒数据,使得记忆提取技术能泄露后门示例;被投毒的大语言模型在触发器出现时,其输出分布和注意力头会呈现独特模式。扫描器首先提取模型记忆内容,分析并隔离显著子字符串,然后将三个特征形式化为损失函数进行评分,返回排序后的触发器候选列表。
这一后门检测工具适用于常见的GPT风格模型,无需额外训练或先验知识,但存在局限性:不适用于专有模型,对基于触发器的后门效果最佳,且不能检测所有后门类型。研究人员认为,这是迈向实用、可部署后门检测的重要一步,持续进展依赖于AI安全社区的协作。
与此同时,微软正在扩展其安全开发生命周期,以应对从提示注入到数据投毒等AI特定安全问题,促进安全的AI开发和部署。人工智能企业副总裁Yonatan Zunger表示:“与具有可预测路径的传统系统不同,AI系统为不安全的输入创造了多个入口点,包括提示、插件和外部API,这些可能触发意外行为。”他强调,AI消解了传统信任区域,使上下文边界扁平化,增加了执行限制的难度。










