近未来策略优化:自适应混合策略强化学习
深度2026年4月28日27 分钟阅读
本文发现,策略自身的“近未来”检查点比外部教师或历史轨迹更能兼顾质量与接近性,从而最大化学习信号。对于研究强化学习、特别是在RLVR框架下进行后训练的研究者,本文提出的NPO方法简单有效,可直接应用于多模态模型的性能提升。
本文编译自 Near-Future Policy Optimization,版权归原作者所有。
觉得有用?分享给更多人
觉得有用?分享给更多人
OpenAI 与微软修改协议取消独家授权后,AWS 火速在 Bedrock 上架 OpenAI 最新模型、Codex 和全新智能体服务 Bedrock Managed Agents。亚马逊称这标志着“更深层次合作的开始”,而微软则转向 Anthropic 和 Claude 驱动的智能体产品。
SAS 发布 Viya MCP Server,通过 Model Context Protocol 将分析能力开放给 Claude、Copilot 等任意 AI Agent。同时推出的还有 Agentic AI Accelerator、营销多智能体系统及供应链智能体,背后是行业专有模型和治理平台 AI Navigator。