RAGEN-2:智能体强化学习中的推理崩溃
深度2026年4月7日45 分钟阅读
最有趣的发现是:熵值稳定并不代表推理真正响应不同输入,模型可能陷入“模板崩溃”的隐形故障模式。推荐给研究强化学习、大语言模型智能体、推理稳定性的研究人员和工程师阅读。
本文编译自 RAGEN-2: Reasoning Collapse in Agentic RL,版权归原作者所有。
觉得有用?分享给更多人
觉得有用?分享给更多人
本文提出LPM 1.0(大型表演模型),通过构建多模态人类中心数据集和训练17B参数的扩散变换器,实现了单人多工音频-视觉对话表演。该模型在保持身份一致性的同时,能够实时生成无限长度的表演视频,在LPM-Bench基准测试中取得最优结果。这项工作为对话代理、直播角色和游戏NPC提供了视觉引擎,解决了现有视频模型在表现力、实时推理和长期身份稳定性之间的三难困境。
本文提出了KnowU-Bench,一个面向个性化移动智能体的在线评测基准,通过可复现的Android仿真环境,覆盖42项通用GUI任务、86项个性化任务和64项主动任务。实验发现,即使前沿模型在需要用户偏好推断或干预校准的模糊指令下,性能也降至50%以下,揭示了界面操作能力与可信赖个人助手之间的根本差距。该工作填补了现有评测无法捕捉交互式偏好获取和主动决策链的空白。