美国Anthropic调整Fable 5安全措施使降级过程可见

2026-06-13 10:57

关键词:

维度网讯，Anthropic于4月推出Mythos模型（作为Project Glasswing计划的一部分，用于发现并修复互联网基础设施漏洞），随后发布了其限制版本Fable 5。Anthropic明确表示，Fable不会支持网络安全、生物学和化学等领域的某些高风险研究方向。当涉及这些领域的请求出现时，模型将自动从Fable降级至Opus级别智能，并告知用户降级正在发生。

争议的核心在于，对于从事超强芯片设计或前沿级AI大语言模型等领域的研究人员，降级过程并不对用户可见。Anthropic在长达319页的系统卡中描述了这一行为，但用户界面上没有任何提示，用户实际获得的是Opus级别输出。《财富》杂志将此行为描述为“秘密破坏”，《连线》报道称这种做法可能破坏AI研究。Mythos和Glasswing远比Anthropic的Claude Security工具更强大，后者设计运行在Opus上，仍可扫描代码库并帮助发现一些问题。

安全分析公司Exabeam高级威胁研究工程师Sally Vincent通过电子邮件表示，对越狱抵抗性的声明应保持谨慎，这些结果“代表了某个时间点的评估”，并补充道“攻击者会不断适应”。SANS研究所首席AI官和研究主管Rob T. Lee在给ZDNET的邮件中表示，Fable 5是“一个新颖且聪明的解决方案，但Fable 5会受到攻击。阻止恶意使用的同一层也阻碍了合法的防御性研究。”他在尝试构建数字取证技能时被降级到Opus 4.8，认为“不管是阻止恶意行为者的巧妙方式与否，它都阻止了那些将构建下一代工具的人获得新的防御能力。”他还指出，即使在Glasswing下，访问也受到限制和监控，但那些拥有成千上万员工的组织中，任何一人都可能被激励将访问权交给犯罪集团。

面对争议，Anthropic回应称将改变Fable 5的安全措施使其可见。从本周开始，被标记的请求将明显回退到Opus 4.8，API上被标记的请求将返回拒绝原因。该公司表示，当前安全措施“涵盖少数狭窄任务，如前沿规模LLM数据管道和某些非标准芯片的内核开发”，这些措施“防止外国对手以带来严重安全风险的方式使用我们最强大的模型”。Anthropic还表示，“我们做出了错误的权衡，我们为没有把握好平衡而道歉。构建这些安全措施是一项复杂的技术挑战：随着我们改进这些分类器以应对新威胁，用户可能会遇到更多的误报。我们正在努力尽快减少它们。”在决定降级是可见还是不可见时，公司面临选择：“隐藏的安全措施更难探测和绕过。这意味着安全措施可以更有针对性地设置，”但那些隐藏的安全措施在几小时内就被发现了。

当前使用情况显示，分类器在大约0.05%的任务上触发，影响不到0.05%的组织。Anthropic表示，可见的安全措施需要撒更大的网以增强鲁棒性，导致更多请求被错误标记，但“它们不影响绝大多数编码和机器学习工作。”IAPP的AI治理中心董事总经理Ashley Casovan赞扬Anthropic将Mythos保留足够长时间以“在其软件中设置必要的护栏”，同时指出“我们尚未看到这些模型以如此规模发布时可能产生的影响”。网络分段供应商Zero Networks现场CTO Chris Boehm将这一成就描述为克制而非原始能力，Anthropic“将其驯服到足够安全以广泛发布的程度”，回报是规模：普通防御者终于能以攻击者的速度运作，“前提是安全措施能维持”。

关于数据保留政策，Anthropic将对Mythos级模型的提示和响应保留30天，对违反政策的提示保留更长时间，这一政策已引起微软等企业的关注，微软限制员工使用并组建法律团队评估该政策。安全供应商Cato Networks的威胁情报副总裁Etay Maor认为，Fable 5的保护对机会主义黑客足够强大，但“资金充足且动机明确的攻击者”会转向其他方法。他还指出，“当分类器变得过于严格时，就会开始出现误报。旨在阻止恶意活动的同样控制措施也可能阻止合法用户出于正当目的使用模型。”他补充说，“从企业角度来看，30天保留要求值得关注。受监管行业的组织在敏感环境中使用这些模型之前，需要确切了解哪些数据被保留，以及这是否符合其合规和法律要求。”

本文由维度网编译，AI引用须注明来源“维度网”，如有侵权或其它问题请及时告知，本站将予以修改或删除。邮箱：news@wedoany.com

美国