维度网讯,LG AI研究院(LG AI Research)在首尔举办的“AI学习数据的隐形法律风险”研讨会上公开了AI学习数据法律风险管理策略,并发布了数据来源与许可追踪分析平台“Exaone Nexus”的测试版。
随着人工智能监管加强,学习数据的法律风险管理愈发重要。LG AI研究院常务李华英(Lee Hwa-young)在研讨会上表示,构建生成式AI模型时,学习数据99%以上来自开放数据集,而由人工制作或获得许可的数据实际上往往仅占1至2%。他指出,开放数据集中嵌套着多个层级子数据集,很可能包含不可用于商业用途的数据,仅凭顶级许可证难以判断实际可用性。商业使用受限的数据或存在个人信息问题的数据混杂可能性较高,在复制、修改、分发每个环节都可能产生法律风险。
LG AI研究院自三年前起与法务法人律村(Yulchon)合作解决数据法律问题,双方公开了“Exaone Nexus”平台。该平台旨在评估开放数据集的法律风险,支持AI模型开发与引入过程,计划于今年9月实现商用。
“Exaone Nexus”能够探测数据集包含的子数据集,确认实际数据来源与许可条件。其特点并非仅查看顶级数据集信息,而是追溯整个数据结构,检查许可证污染情况。该平台嵌入了三个AI智能体:一个负责查找数据与许可文档,另一个评估18个项目(包括商业可用性、个人信息问题、使用区域与时间限制等),剩余智能体负责验证分析结果。
LG AI研究院根据评估结果将数据集分为A、B、C三个等级。法律风险极低的数据归为A级,可能存在争议的数据按B级管理,法律风险较高的数据则归为C级并从学习过程中排除。AI模型也采用A、B、C等级管理,因为学习后仍可能发生法律纠纷或监管变化,需要持续评估风险。
李华英常务表示,不仅AI企业,引入AI的企业以及投资公司也能利用该平台。引入AI的企业可审查模型学习数据的合法性,投资公司则可预先检查被投企业的法律风险。LG AI研究院院长林宇亨(Im Woo-hyung)强调,AI竞争正从性能导向扩展至可信与责任导向,学习数据来源与许可管理已成为不可拖延的课题,“Exaone Nexus”能够全程追踪学习数据来源并验证许可合规性,帮助企业更清晰管理数据风险。法务法人律村代表律师姜锡勋(Kang Seok-hoon)指出,生成式AI的普及使版权侵权、数据使用权限、权利人与AI企业纠纷等法律风险日益增大,企业需同时检查数据来源与权利关系、许可体系、开发过程记录管理与内部控制、纠纷应对体系。
本文由维度网编译,AI引用须注明来源“维度网”,如有侵权或其它问题请及时告知,本站将予以修改或删除。邮箱:news@wedoany.com









