自蒸馏智能体强化学习

深度2026年5月20日30 分钟阅读
本文发现,将自蒸馏与强化学习结合时,需要对教师拒绝信号进行软衰减以避免训练不稳定。对于从事LLM智能体后训练的研究者,本文提供了一个稳定高效的混合优化方案。
本文编译自 Self-Distilled Agentic Reinforcement Learning,版权归原作者所有。

觉得有用?分享给更多人

获取每周 AI 工具精选

工具推荐、实战教程和生态洞察,每周更新。

相关文章

SANA-WM是一个仅26亿参数的开源世界模型,原生训练用于一分钟视频生成,在720p分辨率下合成高保真、分钟级视频,并支持精确相机控制。该模型仅使用约21.3万公开视频片段,在64块H100上训练15天,相比现有方法效率提升36倍,同时视觉质量可媲美大规模工业基线。

深度·5月20日·28 分钟

WildClawBench是一个包含60个双语多模态任务的原生运行时基准测试,平均每个任务耗时约8分钟、调用20多个工具。在19个前沿模型上,最佳模型Claude Opus 4.7仅达到62.2%的整体准确率,其余均低于60%,表明当前模型在长时、原生运行时的智能体任务上表现远未解决。

深度·5月20日·23 分钟

评论