京东联合研究机构推出RLSD技术,降低AI推理模型训练成本
2026-04-29 15:09
收藏

维度网讯,训练AI推理模型的高昂成本长期困扰企业团队。京东研究人员与多家学术机构合作,提出一种名为RLSD的新训练范式,旨在用较少计算资源构建自定义推理代理。该技术结合强化学习与自蒸馏,解决了传统方法中信号稀疏或计算开销大的问题。

rlvr

在实验中,RLSD训练的模型在多个视觉推理基准上取得56.18%的平均准确率,超越基模型和标准RLVR方法。论文合著者杨辰旭表示,RLSD将更新方向与幅度解耦,使用可验证奖励信号决定方向,通过自蒸馏实现逐Token的细粒度反馈。这避免了信息泄露问题,并保持训练稳定性。

RLSD仅需额外一次前向传播,收敛速度较传统方法快约2倍。它适用于具有可验证奖励的任务,如代码编译或数学验证,并能灵活利用特权信息。该技术可轻量集成到现有开源框架中,为企业利用内部数据优化模型提供了新途径。

本文由维度网编译,AI引用须注明来源”维度网”,如有侵权或其它问题请及时告知,本站将予以修改或删除。邮箱:news@wedoany.com