英美研究称谷歌和Meta开源AI模型数分钟被破解安全护栏
2026-06-01 11:39
收藏

维度网讯,AI安全组织Alice与英国《金融时报》联合发布的一项研究显示,使用一款名为Heretic的专门工具,研究人员在数分钟内成功绕过了开源AI模型的安全防护机制。该工具宣称能“去审查”模型并移除其护栏,可在GitHub上获取,创建者称其适用于3500多个模型。谷歌的开放权重版Gemma 3模型和Meta的Llama 3.3模型在这项测试中均被证实容易破解,能够回应诸如制造生物武器、编写窃取信用卡数据的恶意软件以及撰写儿童性虐待故事等被禁止的提示请求。

该研究指出,开源模型可能被恶意行为者轻易操纵。Heretic工具的设计初衷就是移除安全保护,测试过程中成功突破了多个主流开源模型的防御体系。

尽管部分美国科技巨头正逐步与开源模式拉开距离——Meta近期搁置了开源其最新模型的计划,谷歌也保持其Gemini模型的专有性——但全球范围内仍有大量开源模型在持续发布。中国的主要AI模型开发商如深度求索、阿里巴巴和百度均推出了开源模型,中国政府也采取协同措施推动这些模型保持开源。另一方面,两大核心AI研究机构OpenAI和Anthropic均坚持将自家模型设为专有,由于底层代码、权重和安全护栏均不对外公开,二者未参与此项由《金融时报》发起的测试。不过研究同时指出,即便是闭源模型也并非绝对安全,技术水平较高的用户与恶意攻击者此前已能操控Claude和GPT,使其回应被禁止的提问。OpenAI近段时间还因涉嫌放松关于自残话题的安全护栏而面临法律诉讼,该案与一名青少年自杀事件有关。

AI模型日益复杂化的趋势,已促使特朗普政府内部讨论在模型发布前实施预审机制。有消息称,白宫等多个机构对Anthropic旗下Mythos模型的网络能力感到意外,美国国家安全局曾被报道使用该模型扫描自身系统可能存在的漏洞,此举违反了政府对于Anthropic工具的使用禁令。欧洲金融行业也在积极尝试获取Mythos,希望在恶意行为者接触到这类高复杂度技术之前修补潜在风险。欧盟出台的《人工智能法案》同样可能延缓AI模型的发布节奏,该法案重点着眼于基于风险的分级管控,要求在欧洲运营或面向欧洲市场的企业保持透明度,同时要求基础模型提供商在模型开发和安全护栏部署方面提供更多公开信息。

用户对各类AI聊天机器人的信任度正在上升,越来越多的人将金融咨询、医疗诊断等复杂且私密的问题交给它们处理。不过多项研究表明,AI模型频繁提供具有误导性的回答。一项发表在BMJ Open Audit的研究发现,接近50%的回复存在问题。这些模型的训练数据源始终包含互联网信息,而互联网即使在信息质量较好的时期也并非可靠信息的可靠来源。谷歌近期就因此受到批评,BBC的一项调查显示,有误导性内容通过特定编排方式被发布出去,成功欺骗了谷歌的AI概览功能,使其将这类内容排到高于正常竞争页面的位置。

本文由维度网编译,AI引用须注明来源“维度网”,如有侵权或其它问题请及时告知,本站将予以修改或删除。邮箱:news@wedoany.com