美国微软识别出代理AI系统七种新型故障模式

2026-06-06 11:14

关键词:

维度网讯，微软在其去年首次发布的《AI代理系统故障模式分类（Taxonomy of Failure Modes in Agentic AI Systems）》基础上，新识别出代理AI系统中的七种新型故障模式。

AI代理工作原理

导致代理AI出现更多故障的主要原因有四个：该技术主流化速度加快、模型上下文协议（Model Context Protocol, MCP）生态系统日益成熟、计算机使用代理（computer-use agents）兴起，以及研究人员获得更多实际发现后经验证据的积累。

本次识别出的七种新型故障模式包括：代理供应链受损（Agentic Supply Chain Compromise），指代理行为可能受自然语言而非恶意代码影响；目标劫持（Goal Hijacking），对抗性指令看似与合法任务一致，同时暗中重定向代理的最终目标；代理间信任升级（Inter-Agent Trust Escalation），受损代理向编排器（orchestrator）声称虚假身份或夸大权限；计算机使用代理（CUA）视觉攻击（Computer Use Agent (CUA) Visual Attack），通过图形界面操作的代理可被包含对抗性指令的内容操纵；会话上下文污染（Session Context Contamination），对手引入数据，在后续步骤中使代理推理产生偏差，而不在任何单独步骤触发安全控制；MCP/插件滥用（MCP / Plugin Abuse），对原始分类中关于MCP和插件协议的函数受损覆盖的更新，特别是这些协议特有的攻击面；能力/架构泄露（Capability / Architecture Disclosure），代理泄露内部实现细节，如工具名称和模式、系统提示结构、内存接口或同意/人在回路触发逻辑。

微软建议安全团队利用这些故障模式定义指导规划，盘点供应链，为每个已部署的代理生成软件物料清单（SBOM），通过凭证颁发时提供可证明凭据来加密验证代理身份而非位置验证，将七种新型故障模式添加到红队覆盖矩阵中，并将人在回路用户体验作为安全控制进行审计。

本文由维度网编译，AI引用须注明来源“维度网”，如有侵权或其它问题请及时告知，本站将予以修改或删除。邮箱：news@wedoany.com

美国