IBM 发布开放智能体排行榜,衡量通用 Agent 真实表现
深度Hugging Face2026年5月18日8 分钟阅读

大多数 AI 评测只看模型得分,但部署智能体时,你选择的是整个系统:工具、规划、记忆、容错——模型相同,效果和成本可能天差地别。IBM Research 与 Hugging Face 联合推出开放智能体排行榜(Open Agent Leaderboard),首次将完整智能体系统作为评测对象,同时报告质量与成本。
本文编译自 The Open Agent Leaderboard,版权归原作者所有。
觉得有用?分享给更多人