IT运维AI基准测试:前沿模型得分均低于50%
深度Hugging Face2026年5月27日6 分钟阅读

Artificial Analysis 与 IBM 联合发布了 ITBench-AA,首个针对智能体(Agent)执行企业 IT 任务的基准测试。在 SRE(站点可靠性工程)场景中,Claude Opus 4.7 以 47% 领先,但所有前沿模型得分均未过半。
本文编译自 ITBench-AA: Frontier Models Score Below 50% on the First Benchmark for Agentic Enterprise IT Tasks — by Artificial Analysis and IBM,版权归原作者所有。
觉得有用?分享给更多人