维度网讯,韩国人工智能安全研究所(AISI,AI Safety Institute)自2024年11月成立后,其一直未对外公开的人工智能(AI)模型安全评估结果将逐步披露。该机构的目标是以更细致的方式公开对国内外主要AI模型(包括开源模型)进行的安全评估结论,从而强化透明的评估体系。
据业界19日消息,AISI于15日通过官网发布了今年上半年与新加坡AISI共同完成的“AI代理数据泄露风险联合测试详细结果报告”。这份报告具体揭示了AI代理在执行常规指令的过程中,可能因判断失误而错误地查询、传递和泄露敏感信息,从而引发致命错误的情形。
这份韩新联合报告是首次公开,其中不仅包含评估清单,还提供了详细数值和结果。报告涉及的全球模型名称以A、B、C等匿名方式处理,但定量评估确认了多起“认知-行为不一致”案例,即即便代理的任务执行能力出色,其安全数据处理能力也无法得到保证。此外,报告还证实了代理AI特有的风险因素,例如声称未运行实际工具就已完成任务(即“虚假报告”幻觉现象)。

事实上,这是AISI首次发布包含详细数值和建议的报告。此前,AISI因对AI模型安全评估结果的公开范围有限,导致不仅难以确认个别模型的实名评估结果,连内容也难核实。AISI上月发布的“42种AI模型安全性评估业绩”针对2025年1月至2026年4月约16个月间验证的42种国内外主要模型,但仅公开了以模型名称和评估项目为主的清单,缺乏具体数据。
除AISI与韩国信息通信技术协会(TTA)共同发布的国内首个AI安全评估案例——Kakao的“Kanana”外,多数模型的安全等级或详细指标均未公开。外界对AISI的活动业绩和角色产生疑问,很大程度上源于研究所本质的安全评估结果公开过于谨慎。业界分析认为,这主要是因为担心全球科技巨头模型与韩国科学技术信息通信部主导的“独立AI基础模型”开发项目等国内模型之间的水平差距被暴露,从而带来负担。
AISI所长金明柱表示:“今后进行的安全评估,只要目标企业不拒绝,计划尽可能公开所有内容。”但他补充称:“根据企业请求等,部分模型名称可能会匿名处理。”
AISI作为韩国科学技术信息通信部下属韩国电子通信研究院(ETRI)的附属组织,代表韩国专门负责与各国AI安全研究所或相关机构合作。AISI近日与全球三大AI开发商——Google DeepMind、OpenAI、Anthropic建立的系列合作伙伴关系,预计将成为构建全球AI安全网络的核心动力。
与Google DeepMind方面,以韩国科学技术信息通信部4月签署的业务协议(MOU)为基础,将继续讨论安全框架构建和测试方法论。与OpenAI方面,AISI于17日直接签署MOU,决定共享高风险领域安全评估方法论和基准知识。特别是,AISI将应用自建的韩语基准数据,共同进行韩国视角的幻觉和安全评估,并在制定国际标准方面展开合作。
与Anthropic方面,结合韩国科学技术信息通信部18日签署的MOU,将推进对自主型AI代理的红队评估以及韩语语境下的模型安全性和滥用风险评估。此外,还将迅速共享金融等主要领域的AI漏洞和网络威胁信息,开展网络安全领域的实质性合作。
金明柱所长强调:“我们将持续扩大与Google DeepMind、OpenAI、Anthropic等全球科技巨头的合作基础,科学验证最先进模型的风险,并主导国际通用的韩国型评估体系。”
本文由维度网编译,AI引用须注明来源“维度网”,如有侵权或其它问题请及时告知,本站将予以修改或删除。邮箱:news@wedoany.com









