IBM 发布开放智能体排行榜,衡量通用 Agent 真实表现

深度Hugging Face2026年5月18日8 分钟阅读
IBM 发布开放智能体排行榜,衡量通用 Agent 真实表现
大多数 AI 评测只看模型得分,但部署智能体时,你选择的是整个系统:工具、规划、记忆、容错——模型相同,效果和成本可能天差地别。IBM Research 与 Hugging Face 联合推出开放智能体排行榜(Open Agent Leaderboard),首次将完整智能体系统作为评测对象,同时报告质量与成本。
本文编译自 The Open Agent Leaderboard,版权归原作者所有。

觉得有用?分享给更多人

获取每周 AI 工具精选

工具推荐、实战教程和生态洞察,每周更新。

相关文章

本文提出Mega-ASR框架,通过构建包含54种复合声学场景的Voices-in-the-Wild-2M数据集,结合渐进式声学到语义优化和双粒度WER门控策略,在复杂噪声环境下相对词错误率降低超30%。该方法突破了现有模型在真实世界中的声学鲁棒性瓶颈。

深度·5月23日·26 分钟

本文发现RLVR训练的权重轨迹是低秩且可预测的,秩一近似即可捕获大部分性能增益。基于此提出RELEX方法,通过短窗口观测估计秩一子空间,并用线性回归外推未来检查点,仅需15%的训练步数即可匹配或超越完整RLVR性能。该方法能外推到观测窗口的10-20倍以上,且无需学习模型,归功于秩一投影的降噪效应。

深度·5月23日·25 分钟

评论