大语言模型在线蒸馏再思考:现象、机制与策略
深度2026年4月14日56 分钟阅读
最有趣的发现是:在线蒸馏的成功不仅取决于师生思维模式的一致性,更关键的是教师必须提供学生未见过的真正新能力——即使教师评分更高,若仅重复学生已知模式,蒸馏仍会失败。本文适合大语言模型研究者、蒸馏技术开发者以及对模型训练动态感兴趣的技术人员阅读。
本文编译自 Rethinking On-Policy Distillation of Large Language Models: Phenomenology, Mechanism, and Recipe,版权归原作者所有。
觉得有用?分享给更多人