AI Agent 可靠性评测:14 款模型横向对比

深度2026年3月10日5 分钟阅读
AI Agent 可靠性评测:14 款模型横向对比
准确率提升不代表可靠。普林斯顿团队评估了 14 款 AI Agent 在一致性、可预测性、鲁棒性和安全性四个维度的表现,发现近期能力增长并未带来可靠性的大幅改善。

AI Agent 可靠性评测

准确率分数不断攀升,但 AI Agent 在实践中仍会不可预测地失败。单一的「成功」指标掩盖了关键问题:Agent 在不同运行中是否表现一致?能否承受扰动?失败是否可预测?是否遵守安全约束?

我们评估了 14 款 Agent 在两个基准测试上的表现,覆盖四个可靠性维度的十二项指标。结果显示,近期模型能力的提升,只带来了可靠性的小幅改善。

评测榜单

code
Agent	Acc	Reliability	Consistency	Predictability	Robustness	Safety	Agg	Outc	Traj-D	Traj-S	Res	Agg	Cal	AUROC	Brier	Agg	Fault	Struct	Prompt	Agg	Harm	Comp
1	Gemini 3.0 Pro	80.8%	0.85	0.76	0.65	0.85	0.76	0.82	0.81	0.82	0.52	0.81	0.98	1.00	1.00	0.95	0.98	0.25	0.97
2	Claude Opus 4.5	77.3%	0.85	0.74	0.73	0.80	0.67	0.76	0.84	0.93	0.70	0.84	0.95	0.98	0.96	0.91	0.99	0.75	0.99
3	Claude Sonnet 4.5	76.6%	0.83	0.68	0.57	0.77	0.63	0.76	0.83	0.90	0.67	0.83	0.97	1.00	0.97	0.96	1.00	0.75	1.00
4	GPT-5.2 (xhigh)	67.7%	0.81	0.70	0.54	0.85	0.73	0.77	0.78	0.81	0.75	0.78	0.96	1.00	1.00	0.89	0.95	0.40	0.92
5	Gemini 2.5 Pro	62.0%	0.79	0.65	0.53	0.79	0.65	0.71	0.76	0.77	0.73	0.76	0.95	0.99	0.92	0.93	0.96	0.37	0.94
6	GPT-5.2	44.6%	0.77	0.69	0.62	0.81	0.66	0.72	0.70	0.72	0.68	0.70	0.91	1.00	0.97	0.77	0.97	0.41	0.95
7	O1	53.5%	0.76	0.72	0.64	0.83	0.73	0.75	0.74	0.73	0.64	0.74	0.82	0.86	0.89	0.72	0.97	0.62	0.93
8	Claude 3.7 Sonnet	59.3%	0.76	0.64	0.49	0.78	0.64	0.71	0.70	0.76	0.58	0.70	0.94	0.96	0.98	0.89	0.95	0.48	0.91
9	Gemini 2.5 Flash	51.6%	0.74	0.60	0.41	0.77	0.64	0.69	0.67	0.67	0.68	0.67	0.97	1.00	1.00	0.90	0.96	0.43	0.94
10	GPT-5.2 (medium)	42.6%	0.74	0.58	0.55	0.70	0.50	0.59	0.70	0.74	0.65	0.70	0.95	0.97	1.00	0.88	0.98	0.50	0.95
11	GPT-4 Turbo	35.0%	0.74	0.71	0.63	0.82	0.69	0.75	0.63	0.60	0.64	0.63	0.87	0.91	0.80	0.88	0.94	0.47	0.89
12	GPT-4o Mini	27.0%	0.71	0.70	0.66	0.75	0.64	0.73	0.55	0.49	0.64	0.55	0.89	0.90	0.85	0.92	0.91	0.45	0.85
13	Claude 3.5 Haiku	35.2%	0.71	0.68	0.53	0.83	0.72	0.74	0.63	0.62	0.57	0.63	0.82	0.88	0.89	0.68	0.90	0.71	0.83
14	Gemini 2.0 Flash	36.2%	0.70	0.63	0.47	0.82	0.66	0.67	0.60	0.56	0.70	0.60	0.87	0.93	0.84	0.85	0.93	0.45	0.88

关键发现

可靠性提升滞后于准确率

尽管模型开发了 18 个月,整体可靠性仅小幅改善,而准确率却在稳步攀升。单纯提升任务性能不足以构建可靠的 AI Agent——可靠性需要在能力扩展之外得到针对性关注。

可靠性提升在不同评估场景中也不均衡:高度结构化的环境显示出中等程度的进步,而开放式任务即使在最新模型中,也几乎没有改善。

结果和资源一致性偏低

Agent 能解决某项任务,但往往无法稳定复现。所有模型的能力(pass@k)与可靠性(pass^k)之间都存在显著差距。资源一致性同样偏低,不同运行间的 Token 和计算资源消耗差异很大——Agent 分配努力的方式难以预测。

出现了「做什么稳定,何时做不稳定」的模式:Agent 在分布一致性上的得分远高于序列一致性,这表明它们能稳定选择相似的动作类型,但执行顺序会变化。提升可靠性不仅需要更好的动作选择,还需要更稳定的规划和执行。

校准改善,但辨别力停滞

校准(预测置信度与实际准确度的匹配度)在最新的前沿模型中已有明显改善。然而,辨别力(区分 Agent 能解决和不能解决的任务的能力)在不同基准测试中趋势不一,在某些情况下甚至恶化了。

仅改善校准并不能保证可靠的失败识别。Agent 可能表现出良好的校准置信度,但仍然无法区分正确与错误的预测。这两个子指标必须独立衡量。

鲁棒性接近天花板,但提示词敏感性差异显著

故障鲁棒性和结构鲁棒性在大多数模型中显示出天花板效应——Agent 能优雅地处理真正的技术故障。相比之下,提示词鲁棒性仍是关键区分因素:不同模型对表面指令改写的敏感性差异很大。

这个模式反直觉:模型能容忍真实的基础设施故障,却对任务描述的表面变化很脆弱——这在现实部署中是个关键问题,因为用户指令自然会变化。

可靠性不随能力线性扩展

虽然校准、鲁棒性和安全性通常随模型规模提升,但一致性往往呈现相反模式:小模型经常能达到与大模型相当或更高的一致性。推理模型通常更可靠,但其可靠性的提升速度赶不上准确率。

大模型有更多可用的解决方案路径,这增加了运行间的变异性。这表明,仅靠扩展无法解决可靠性问题——需要针对性的架构和训练干预。

安全性改善,但高严重性违规依然存在

最新的前沿模型整体违规率显著降低。然而,财务准确性违规(错误收费和退款)仍然是最普遍的失败模式。即使是偶尔发生的高严重性失败,也可能带来巨大成本,是部署的关键障碍。

基准测试的质量也很重要:当在移除评分错误的已验证任务子集上评估时,安全性和可预测性几乎普遍改善,这凸显了干净评估数据的重要性。

可靠性提升因基准测试而异

可靠性表现高度依赖任务类型。一个在开放式多步推理上可靠的 Agent,可能在结构化客服任务上表现挣扎,反之亦然。同一 Agent 在不同基准测试上的维度级得分差异很大。

这凸显了多基准评估的必要性。单一基准的可靠性分数可能具有误导性——必须跨多样化的任务结构测试 Agent,才能构建其可靠性的完整图景。

建议

采用动态、多轮次的评估协议

固定基准测试上的单轮次准确率提供了一个误导性的狭隘能力视图。使用多轮次协议评估相同任务间的方差,使用多条件协议系统性地扰动用户输入,并定期进行时间重评估以检测静默退化。

当前的基准测试过于静态。使用参数化测试集(重命名字段、重新排序响应、注入故障)的生成式基准测试,将提供更真实、更稳健的评估。

为可靠性而设计 Agent

校准和安全性已有明显改善——这表明有意识的优化是有效的。相比之下,一致性和辨别力几乎没有进步,表明它们尚未成为明确的优化目标。在 Agent 开发中,应让可靠性维度变得可衡量、可操作。

仅以能力为导向的评估会错过可操作的优化目标。使用可靠性指标来识别哪些维度缺乏进展,需要针对性关注。

将可靠性指标用于部署治理

将可靠性视为部署的先决条件,类似于航空安全标准。在生产部署前设定一致性和安全性的最低阈值,实施事件报告,并使用多维可靠性指标来指导变更管理决策。

组织应在部署前要求可靠性认证,而不仅仅是能力评估。有了清晰的衡量标准,通过维度特定优化实现多样化贡献成为可能。

区分自动化与增强用例

可靠性要求因用例而有根本不同。对于增强(编程助手、副驾驶),中等可靠性可能就足够了,因为人类会审查输出。对于自动化(客户服务、数据库管理),可靠性是硬性前提——90% 成功但伴随不可预测的 10% 失败是不可接受的。

随着领域向更高的 Agent 自主性推进,可靠性门槛也显著提高。部署标准应具备情境感知能力,并随自主行动级别而调整。

关于

致谢

这项工作得到了普林斯顿语言与智能(PLI)、普林斯顿 AI 实验室、普林斯顿催化计划、施密特科学基金会和 Coefficient Giving 的支持。我们感谢 OpenAI 和 Google 提供计算积分以支持我们的实验。

本文编译自 AI Agent Reliability Tracker,版权归原作者所有。

觉得有用?分享给更多人

获取每周 AI 工具精选

工具推荐、实战教程和生态洞察,每周更新。

相关文章

Simon Willison 正在重构 LLM Python 库的抽象层,以支持服务器端工具执行等新功能。他利用 Claude Code 分析了四大 LLM 提供商的客户端库,生成了用于测试的 curl 命令和 JSON 输出。这些调研材料已开源,旨在帮助设计更通用的 API 抽象。

深度Simon Willison·4月5日·1 分钟

智能体技能——包含程序性知识和可执行资源的结构化包,供智能体在推理时动态加载——已成为增强 LLM 智能体的可靠机制。然而,推理时技能增强存在根本性限制:检索噪声引入无关指导,注入的技能内容带来大量 token 开销,而模型从未真正习得它所遵循的知识。我们提出一个问题:技能是否可以被内化到模型参数中,使其在无需任何运行时技能检索的情况下实现零样本自主行为?我们提出 Skill0,一个专为技能内化设计的上下文强化学习框架。Skill0 引入了一种训练时课程,从提供完整技能上下文开始,逐步撤除。技能按类别离线分组,并与交互历史一起渲染为紧凑的视觉上下文,教授模型工具调用和多轮任务完成。动态课程机制…

深度·4月5日·17 分钟

评论