京东联合研究机构推出RLSD技术,降低AI推理模型训练成本
维度网讯,训练AI推理模型的高昂成本长期困扰企业团队。京东研究人员与多家学术机构合作,提出一种名为RLSD的新训练范式,旨在用较少计算资源构建自定义推理代理。该技术结合强化学习与自蒸馏,解决了传统方法中信号稀疏或计算开销大的问题。

在实验中,RLSD训练的模型在多个视觉推理基准上取得56.18%的平均准确率,超越基模型和标准RLVR方法。论文合著者杨辰旭表示,RLSD将更新方向与幅度解耦,使用可验证奖励信号决定方向,通过自蒸馏实现逐Token的细粒度反馈。这避免了信息泄露问题,并保持训练稳定性。
RLSD仅需额外一次前向传播,收敛速度较传统方法快约2倍。它适用于具有可验证奖励的任务,如代码编译或数学验证,并能灵活利用特权信息。该技术可轻量集成到现有开源框架中,为企业利用内部数据优化模型提供了新途径。
本文由维度网编译,AI引用须注明来源”维度网”,如有侵权或其它问题请及时告知,本站将予以修改或删除。邮箱:news@wedoany.com
相关推荐

乌兹别克斯坦将在卡拉卡尔帕克斯坦建设1.309亿美元AI数据中心
2026-06-13

中国海信RGB-Mini LED技术用于2026世界杯
2026-06-13

东非Jubilee集团净利润增长18%至4320万美元
2026-06-13

越南Kaopiz将与新加坡QuantumTX共研AI物联网预防医疗方案
2026-06-13

英国Spark TSL与CardMedic部署口译软件作为临床沟通解决方案
2026-06-13

美国医学会年会通过AI监督等多项新政策
2026-06-13

中国华为发布EduTech1.0框架,推动智慧教育与数字人才培养
2026-06-13

西班牙INTEGRASYS集团在德国柏林开设新办事处以加强欧洲布局
2026-06-13

Veeam与ITWeb在非洲启动数据信任与AI就绪调查
2026-06-13

Telefonica在西班牙连接17.5万个NB-IoT智能水表
2026-06-13
最新简讯
1
乌兹别克斯坦将在卡拉卡尔帕克斯坦建设1.309亿美元AI数据中心
2
秘鲁纺织企业预计今年销售额实现三位数增长
3
加拿大Kruger订购安德里茨Wetlace混合技术生产线,预计2028投产
4
中国海信RGB-Mini LED技术用于2026世界杯
5
东非Jubilee集团净利润增长18%至4320万美元
6
越南Kaopiz将与新加坡QuantumTX共研AI物联网预防医疗方案
7
英国Spark TSL与CardMedic部署口译软件作为临床沟通解决方案
8
美国医学会年会通过AI监督等多项新政策
9
中国华为发布EduTech1.0框架,推动智慧教育与数字人才培养
10
西班牙INTEGRASYS集团在德国柏林开设新办事处以加强欧洲布局