AI Agent 可靠性评测:14 款模型横向对比

AI Agent 可靠性评测
准确率分数不断攀升,但 AI Agent 在实践中仍会不可预测地失败。单一的「成功」指标掩盖了关键问题:Agent 在不同运行中是否表现一致?能否承受扰动?失败是否可预测?是否遵守安全约束?
我们评估了 14 款 Agent 在两个基准测试上的表现,覆盖四个可靠性维度的十二项指标。结果显示,近期模型能力的提升,只带来了可靠性的小幅改善。
评测榜单
Agent Acc Reliability Consistency Predictability Robustness Safety Agg Outc Traj-D Traj-S Res Agg Cal AUROC Brier Agg Fault Struct Prompt Agg Harm Comp
1 Gemini 3.0 Pro 80.8% 0.85 0.76 0.65 0.85 0.76 0.82 0.81 0.82 0.52 0.81 0.98 1.00 1.00 0.95 0.98 0.25 0.97
2 Claude Opus 4.5 77.3% 0.85 0.74 0.73 0.80 0.67 0.76 0.84 0.93 0.70 0.84 0.95 0.98 0.96 0.91 0.99 0.75 0.99
3 Claude Sonnet 4.5 76.6% 0.83 0.68 0.57 0.77 0.63 0.76 0.83 0.90 0.67 0.83 0.97 1.00 0.97 0.96 1.00 0.75 1.00
4 GPT-5.2 (xhigh) 67.7% 0.81 0.70 0.54 0.85 0.73 0.77 0.78 0.81 0.75 0.78 0.96 1.00 1.00 0.89 0.95 0.40 0.92
5 Gemini 2.5 Pro 62.0% 0.79 0.65 0.53 0.79 0.65 0.71 0.76 0.77 0.73 0.76 0.95 0.99 0.92 0.93 0.96 0.37 0.94
6 GPT-5.2 44.6% 0.77 0.69 0.62 0.81 0.66 0.72 0.70 0.72 0.68 0.70 0.91 1.00 0.97 0.77 0.97 0.41 0.95
7 O1 53.5% 0.76 0.72 0.64 0.83 0.73 0.75 0.74 0.73 0.64 0.74 0.82 0.86 0.89 0.72 0.97 0.62 0.93
8 Claude 3.7 Sonnet 59.3% 0.76 0.64 0.49 0.78 0.64 0.71 0.70 0.76 0.58 0.70 0.94 0.96 0.98 0.89 0.95 0.48 0.91
9 Gemini 2.5 Flash 51.6% 0.74 0.60 0.41 0.77 0.64 0.69 0.67 0.67 0.68 0.67 0.97 1.00 1.00 0.90 0.96 0.43 0.94
10 GPT-5.2 (medium) 42.6% 0.74 0.58 0.55 0.70 0.50 0.59 0.70 0.74 0.65 0.70 0.95 0.97 1.00 0.88 0.98 0.50 0.95
11 GPT-4 Turbo 35.0% 0.74 0.71 0.63 0.82 0.69 0.75 0.63 0.60 0.64 0.63 0.87 0.91 0.80 0.88 0.94 0.47 0.89
12 GPT-4o Mini 27.0% 0.71 0.70 0.66 0.75 0.64 0.73 0.55 0.49 0.64 0.55 0.89 0.90 0.85 0.92 0.91 0.45 0.85
13 Claude 3.5 Haiku 35.2% 0.71 0.68 0.53 0.83 0.72 0.74 0.63 0.62 0.57 0.63 0.82 0.88 0.89 0.68 0.90 0.71 0.83
14 Gemini 2.0 Flash 36.2% 0.70 0.63 0.47 0.82 0.66 0.67 0.60 0.56 0.70 0.60 0.87 0.93 0.84 0.85 0.93 0.45 0.88
关键发现
可靠性提升滞后于准确率
尽管模型开发了 18 个月,整体可靠性仅小幅改善,而准确率却在稳步攀升。单纯提升任务性能不足以构建可靠的 AI Agent——可靠性需要在能力扩展之外得到针对性关注。
可靠性提升在不同评估场景中也不均衡:高度结构化的环境显示出中等程度的进步,而开放式任务即使在最新模型中,也几乎没有改善。
结果和资源一致性偏低
Agent 能解决某项任务,但往往无法稳定复现。所有模型的能力(pass@k)与可靠性(pass^k)之间都存在显著差距。资源一致性同样偏低,不同运行间的 Token 和计算资源消耗差异很大——Agent 分配努力的方式难以预测。
出现了「做什么稳定,何时做不稳定」的模式:Agent 在分布一致性上的得分远高于序列一致性,这表明它们能稳定选择相似的动作类型,但执行顺序会变化。提升可靠性不仅需要更好的动作选择,还需要更稳定的规划和执行。
校准改善,但辨别力停滞
校准(预测置信度与实际准确度的匹配度)在最新的前沿模型中已有明显改善。然而,辨别力(区分 Agent 能解决和不能解决的任务的能力)在不同基准测试中趋势不一,在某些情况下甚至恶化了。
仅改善校准并不能保证可靠的失败识别。Agent 可能表现出良好的校准置信度,但仍然无法区分正确与错误的预测。这两个子指标必须独立衡量。
鲁棒性接近天花板,但提示词敏感性差异显著
故障鲁棒性和结构鲁棒性在大多数模型中显示出天花板效应——Agent 能优雅地处理真正的技术故障。相比之下,提示词鲁棒性仍是关键区分因素:不同模型对表面指令改写的敏感性差异很大。
这个模式反直觉:模型能容忍真实的基础设施故障,却对任务描述的表面变化很脆弱——这在现实部署中是个关键问题,因为用户指令自然会变化。
可靠性不随能力线性扩展
虽然校准、鲁棒性和安全性通常随模型规模提升,但一致性往往呈现相反模式:小模型经常能达到与大模型相当或更高的一致性。推理模型通常更可靠,但其可靠性的提升速度赶不上准确率。
大模型有更多可用的解决方案路径,这增加了运行间的变异性。这表明,仅靠扩展无法解决可靠性问题——需要针对性的架构和训练干预。
安全性改善,但高严重性违规依然存在
最新的前沿模型整体违规率显著降低。然而,财务准确性违规(错误收费和退款)仍然是最普遍的失败模式。即使是偶尔发生的高严重性失败,也可能带来巨大成本,是部署的关键障碍。
基准测试的质量也很重要:当在移除评分错误的已验证任务子集上评估时,安全性和可预测性几乎普遍改善,这凸显了干净评估数据的重要性。
可靠性提升因基准测试而异
可靠性表现高度依赖任务类型。一个在开放式多步推理上可靠的 Agent,可能在结构化客服任务上表现挣扎,反之亦然。同一 Agent 在不同基准测试上的维度级得分差异很大。
这凸显了多基准评估的必要性。单一基准的可靠性分数可能具有误导性——必须跨多样化的任务结构测试 Agent,才能构建其可靠性的完整图景。
建议
采用动态、多轮次的评估协议
固定基准测试上的单轮次准确率提供了一个误导性的狭隘能力视图。使用多轮次协议评估相同任务间的方差,使用多条件协议系统性地扰动用户输入,并定期进行时间重评估以检测静默退化。
当前的基准测试过于静态。使用参数化测试集(重命名字段、重新排序响应、注入故障)的生成式基准测试,将提供更真实、更稳健的评估。
为可靠性而设计 Agent
校准和安全性已有明显改善——这表明有意识的优化是有效的。相比之下,一致性和辨别力几乎没有进步,表明它们尚未成为明确的优化目标。在 Agent 开发中,应让可靠性维度变得可衡量、可操作。
仅以能力为导向的评估会错过可操作的优化目标。使用可靠性指标来识别哪些维度缺乏进展,需要针对性关注。
将可靠性指标用于部署治理
将可靠性视为部署的先决条件,类似于航空安全标准。在生产部署前设定一致性和安全性的最低阈值,实施事件报告,并使用多维可靠性指标来指导变更管理决策。
组织应在部署前要求可靠性认证,而不仅仅是能力评估。有了清晰的衡量标准,通过维度特定优化实现多样化贡献成为可能。
区分自动化与增强用例
可靠性要求因用例而有根本不同。对于增强(编程助手、副驾驶),中等可靠性可能就足够了,因为人类会审查输出。对于自动化(客户服务、数据库管理),可靠性是硬性前提——90% 成功但伴随不可预测的 10% 失败是不可接受的。
随着领域向更高的 Agent 自主性推进,可靠性门槛也显著提高。部署标准应具备情境感知能力,并随自主行动级别而调整。
关于
致谢
这项工作得到了普林斯顿语言与智能(PLI)、普林斯顿 AI 实验室、普林斯顿催化计划、施密特科学基金会和 Coefficient Giving 的支持。我们感谢 OpenAI 和 Google 提供计算积分以支持我们的实验。
觉得有用?分享给更多人