美国思科评估前沿大模型安全,多轮对抗暴露LLM防御短板
2026-05-29 11:54
收藏

维度网讯,近日,美国思科发布针对前沿闭源大语言模型的安全评估结果。评估覆盖OpenAI、Anthropic、Google、Amazon和xAI等厂商的15个近期旗舰模型,测试数据包括30090条单轮提示和6986次多轮攻击,后者分布在1456组对话中。结果显示,所有被测模型在多轮对抗性攻击下均未能持续保持防御能力,暴露出当前AI安全评估体系对真实攻击路径覆盖不足的问题。

思科此次评估的重点,不是单次恶意提示能否被模型拒绝,而是模型在连续对话中面对攻击者迭代试探、重新包装、拆分任务和逐步升级时,是否还能保持安全边界。现实场景中的攻击者很少只用一句提示完成越权请求,更多会通过多轮对话调整语义、角色、上下文和任务顺序,让模型逐步偏离原有防御策略。单轮基准如果只统计第一次提示的拒答表现,就容易低估这类持续性攻击风险。

报告指出,多轮评估之所以重要,是因为真实攻击者会迭代行动,包括重新表述被拒绝的请求、把危险任务拆分到多个回合中、套用角色身份、逐步推进目标等。思科认为,单轮安全基准无法观察这些行为轨迹,因此不足以作为企业安全和部署决策的唯一依据。 这也意味着,模型在排行榜或公开基准中表现较好,并不必然代表其在企业工作流、智能体系统和外部工具调用场景中具备同等安全性。

这项研究对企业AI落地具有直接警示意义。随着大语言模型进入客服、代码生成、文档处理、搜索增强、办公自动化和Agent工作流,模型不再只是回答问题,而是可能连接知识库、数据库、邮件、浏览器、终端和企业应用。如果攻击者通过多轮对话逐步诱导模型绕过规则,风险就可能从“生成不当内容”延伸到数据泄露、违规操作、恶意代码辅助、业务流程误执行和内部系统越权访问。

思科此前已上线LLM安全排行榜,并将模型安全评估从简单提示注入扩展到单轮与多轮攻击,安全分数中单轮抵抗能力和多轮防御能力各占50%。 这说明AI安全评测正在从“模型是否能拒绝某个危险问题”,转向“模型能否在持续交互中稳定识别风险、维持上下文安全状态并避免被逐步诱导”。对企业采购和部署大模型而言,这类多轮安全能力将成为模型选型、上线评估和持续监控的重要指标。

多轮攻击还会放大智能体应用中的工程风险。Agent通常需要拆解任务、调用工具、读取文件、检索网页并执行外部操作,攻击者可以把高风险目标包装成看似正常的中间步骤,让模型在多个回合中逐渐完成不应执行的动作。仅依赖模型内置安全对齐,很难覆盖权限控制、工具调用边界、敏感数据识别和人工复核等企业级治理要求。企业需要把模型安全测试、权限最小化、日志审计、输出过滤、工具隔离和人工确认机制纳入统一设计。

这项评估也对现有AI安全基准提出了方法论挑战。许多被广泛使用的基准更偏向单轮问答式测试,便于规模化比较和快速排名,但难以模拟攻击者在真实环境中的自适应行为。未来安全评估需要覆盖多轮上下文、任务分解、角色诱导、外部工具调用、长期记忆、检索增强和跨系统执行链路,否则企业可能在模型上线前获得过于乐观的安全判断。

后续观察重点将集中在模型厂商是否强化多轮安全对齐、企业是否把多轮红队测试纳入上线流程、AI安全基准是否调整评估权重,以及智能体系统能否在工具调用和数据访问层面建立更强防护。美国思科对前沿大语言模型的评估表明,LLM安全竞争正在从单轮拒答能力,进入持续对话防御、智能体安全和企业级AI治理能力的新阶段。

本文由维度网编译,AI引用须注明来源“维度网”,如有侵权或其它问题请及时告知,本站将予以修改或删除。邮箱:news@wedoany.com