逐步协同多教师解码蒸馏长链推理
深度2026年5月20日26 分钟阅读
该研究解决了长链推理蒸馏中采样冗余、缺乏协作的问题,通过多教师协同解码动态生成推理步骤。适合AI推理加速、模型压缩及教育场景的研究者和工程师。
本文编译自 Distilling Long-CoT Reasoning through Collaborative Step-wise Multi-Teacher Decoding,版权归原作者所有。
觉得有用?分享给更多人
觉得有用?分享给更多人
本文提出SDAR方法,将在线策略自蒸馏(OPSD)作为门控辅助目标与强化学习(RL)主优化相结合,解决了多轮智能体训练中OPSD的不稳定性问题。在ALFWorld、WebShop和Search-QA任务上,SDAR相比GRPO分别提升了9.4%、10.2%和7.0%的性能,并避免了朴素GRPO+OPSD的波动性。
本文提出KVPO,一种ODE原生的在线GRPO框架,用于对齐自回归视频生成器与人类偏好。通过因果语义探索技术将随机噪声替换为历史KV缓存扰动,并引入基于轨迹速度能量的速度场替代策略,实现了在流匹配速度空间中与原ODE公式一致的奖励加权对比目标。实验表明,该方法在多个蒸馏AR视频生成器上显著提升了视觉质量、运动质量和文本-视频对齐。