DelTA:基于判别式Token信用分配的可验证奖励强化学习
深度2026年5月23日29 分钟阅读
核心发现:标准RLVR更新的方向由优势加权梯度向量的正负侧质心决定,但共享高频Token会主导质心,削弱关键判别信号;DelTA通过重加权使质心更具对比性。推荐读者:大型语言模型强化学习、数学推理及代码生成领域的研究者与实践者。
本文编译自 DelTA: Discriminative Token Credit Assignment for Reinforcement Learning from Verifiable Rewards,版权归原作者所有。
觉得有用?分享给更多人