Flow-OPD:面向流匹配模型的在线策略蒸馏对齐框架
深度2026年5月13日28 分钟阅读
现有流匹配模型在多任务对齐中面临奖励稀疏和梯度干扰问题,导致“跷跷板效应”和奖励破解。Flow-OPD通过在线策略蒸馏整合异构专家知识,突破了这些瓶颈,适合关注文本到图像生成模型后训练对齐、多任务学习以及扩散模型优化的研究者和工程师阅读。
本文编译自 Flow-OPD: On-Policy Distillation for Flow Matching Models,版权归原作者所有。
觉得有用?分享给更多人