美国微软识别出代理AI系统七种新型故障模式
2026-06-06 11:14
收藏

维度网讯,微软在其去年首次发布的《AI代理系统故障模式分类(Taxonomy of Failure Modes in Agentic AI Systems)》基础上,新识别出代理AI系统中的七种新型故障模式。

AI代理工作原理

导致代理AI出现更多故障的主要原因有四个:该技术主流化速度加快、模型上下文协议(Model Context Protocol, MCP)生态系统日益成熟、计算机使用代理(computer-use agents)兴起,以及研究人员获得更多实际发现后经验证据的积累。

本次识别出的七种新型故障模式包括:代理供应链受损(Agentic Supply Chain Compromise),指代理行为可能受自然语言而非恶意代码影响;目标劫持(Goal Hijacking),对抗性指令看似与合法任务一致,同时暗中重定向代理的最终目标;代理间信任升级(Inter-Agent Trust Escalation),受损代理向编排器(orchestrator)声称虚假身份或夸大权限;计算机使用代理(CUA)视觉攻击(Computer Use Agent (CUA) Visual Attack),通过图形界面操作的代理可被包含对抗性指令的内容操纵;会话上下文污染(Session Context Contamination),对手引入数据,在后续步骤中使代理推理产生偏差,而不在任何单独步骤触发安全控制;MCP/插件滥用(MCP / Plugin Abuse),对原始分类中关于MCP和插件协议的函数受损覆盖的更新,特别是这些协议特有的攻击面;能力/架构泄露(Capability / Architecture Disclosure),代理泄露内部实现细节,如工具名称和模式、系统提示结构、内存接口或同意/人在回路触发逻辑。

微软建议安全团队利用这些故障模式定义指导规划,盘点供应链,为每个已部署的代理生成软件物料清单(SBOM),通过凭证颁发时提供可证明凭据来加密验证代理身份而非位置验证,将七种新型故障模式添加到红队覆盖矩阵中,并将人在回路用户体验作为安全控制进行审计。

本文由维度网编译,AI引用须注明来源“维度网”,如有侵权或其它问题请及时告知,本站将予以修改或删除。邮箱:news@wedoany.com