PRISM:面向多模态强化学习的黑盒同策略蒸馏预对齐
深度2026年5月6日28 分钟阅读
本文发现,在标准SFT-to-RL流程中,SFT引入的分布偏移会加剧多模态推理中的感知和推理错误,而PRISM通过同策略蒸馏有效缓解了这一偏移。对于从事多模态学习、强化学习以及大模型后训练的研究者和工程师,本文提供了一种通用、高效的预对齐方案。
本文编译自 Beyond SFT-to-RL: Pre-alignment via Black-Box On-Policy Distillation for Multimodal RL,版权归原作者所有。
觉得有用?分享给更多人