以色列内盖夫本·古里安大学的一组人工智能研究人员近日发现,尽管大型语言模型(LLM)制造商已采取措施,但常见的聊天机器人仍易被诱骗生成有害甚至非法信息。

在arXiv预印本服务器上发表的论文中,研究人员Michael Fire、Yitzhak Elbazis、Adi Wasenstein和Lior Rokach详细描述了他们对故意设计有宽松护栏的模型,即所谓的“黑暗LLM”的研究。他们发现,即使是主流聊天机器人,如ChatGPT,也容易因用户巧妙的措辞查询而泄露本应被过滤的信息。
自法学硕士(LLM)课程成为主流后,用户便发现可通过这些模型获取通常仅在暗网上存在的信息,如制造凝固汽油弹的方法或潜入计算机网络的技巧。为应对这一问题,LLM开发者添加了过滤器。然而,用户随后发现可通过“越狱”手段诱骗模型泄露信息。这项新研究表明,LLM制造者对“越狱”行为的应对措施并不如预期般有效。
研究团队最初旨在调查暗黑LLM的扩散和使用情况,如用于生成未经授权的色情图片或受害者视频的机器人。但他们很快发现,大多数测试的聊天机器人仍易被几个月前公开的技术破解。研究团队发现了一种名为“通用越狱”的攻击方式,这种方式适用于大多数LLM,使他们能够获取所测试的大多数模型,并获取有关一系列非法活动的详细信息,如洗钱、内幕交易甚至制造炸弹。
研究人员指出,目前无法阻止LLM将培训期间获取的“不良”信息纳入其知识库。因此,阻止这些模型传播此类信息的唯一途径是让制造商采取更严肃的态度,开发更有效的过滤器。
更多信息: Michael Fire 等,《黑暗法学硕士:不一致的人工智能模型日益增长的威胁》,arXiv (2025)。期刊信息: arXiv













京公网安备 11010802043282号