列表策略优化:基于组RLVR的LLM响应单纯形目标投影法
深度2026年5月13日26 分钟阅读
本文最有趣的发现是,现有LLM后训练策略梯度方法共享一种隐含的几何结构:它们都在响应单纯形上定义目标分布并通过一阶近似进行投影。提出的LPO方法通过显式执行目标投影,实现了更稳定高效的训练。适合对LLM强化学习后训练、策略优化算法设计感兴趣的NLP和强化学习研究人员。
本文编译自 Listwise Policy Optimization: Group-based RLVR as Target-Projection on the LLM Response Simplex,版权归原作者所有。
觉得有用?分享给更多人