京东联合研究机构推出RLSD技术,降低AI推理模型训练成本
维度网讯,训练AI推理模型的高昂成本长期困扰企业团队。京东研究人员与多家学术机构合作,提出一种名为RLSD的新训练范式,旨在用较少计算资源构建自定义推理代理。该技术结合强化学习与自蒸馏,解决了传统方法中信号稀疏或计算开销大的问题。

在实验中,RLSD训练的模型在多个视觉推理基准上取得56.18%的平均准确率,超越基模型和标准RLVR方法。论文合著者杨辰旭表示,RLSD将更新方向与幅度解耦,使用可验证奖励信号决定方向,通过自蒸馏实现逐Token的细粒度反馈。这避免了信息泄露问题,并保持训练稳定性。
RLSD仅需额外一次前向传播,收敛速度较传统方法快约2倍。它适用于具有可验证奖励的任务,如代码编译或数学验证,并能灵活利用特权信息。该技术可轻量集成到现有开源框架中,为企业利用内部数据优化模型提供了新途径。
本文由维度网编译,AI引用须注明来源”维度网”,如有侵权或其它问题请及时告知,本站将予以修改或删除。邮箱:news@wedoany.com
相关推荐

亚马逊云科技与OpenAI深化合作,GPT-5.5与Codex登陆Bedrock
2026-04-29

LG电子与英伟达深化物理AI合作,CLOiD机器人2028年商业化
2026-04-29

MIT研制超高效微芯片,让起搏器胰岛素泵抵御量子攻击
2026-04-29

Silence Laboratories发布量子安全资产托管库,集成NIST ML-DSA标准抵御量子攻击
2026-04-29

Haiqu与汇丰银行研究展示量子态制备新方法,实现156量子比特扩展
2026-04-29

IBM在美波基普西扩建量子计算园区
2026-04-29

T-Mobile投27亿美元扩光纤网络
2026-04-29

三星重工与M3合作开发浮动数据中心
2026-04-29

在建容量超1吉瓦,I Squared Capital收购巴西最大运营商中立数据中心Elea
2026-04-29

思科硬件集团负责人离职赴AI初创公司
2026-04-29
最新简讯
