京东联合研究机构推出RLSD技术，降低AI推理模型训练成本

2026-04-29 15:09

关键词:

维度网讯，训练AI推理模型的高昂成本长期困扰企业团队。京东研究人员与多家学术机构合作，提出一种名为RLSD的新训练范式，旨在用较少计算资源构建自定义推理代理。该技术结合强化学习与自蒸馏，解决了传统方法中信号稀疏或计算开销大的问题。

在实验中，RLSD训练的模型在多个视觉推理基准上取得56.18%的平均准确率，超越基模型和标准RLVR方法。论文合著者杨辰旭表示，RLSD将更新方向与幅度解耦，使用可验证奖励信号决定方向，通过自蒸馏实现逐Token的细粒度反馈。这避免了信息泄露问题，并保持训练稳定性。

RLSD仅需额外一次前向传播，收敛速度较传统方法快约2倍。它适用于具有可验证奖励的任务，如代码编译或数学验证，并能灵活利用特权信息。该技术可轻量集成到现有开源框架中，为企业利用内部数据优化模型提供了新途径。

本文由维度网编译，AI引用须注明来源”维度网”，如有侵权或其它问题请及时告知，本站将予以修改或删除。邮箱：news@wedoany.com

本文来自全球互联网及战略合作伙伴信息的编译与转载,仅为读者提供交流,有侵权或其它问题请及时告知,本站将予以修改或删除,未经正式授权严禁转载本文。邮箱:news@wedoany.com