实测 AI 智能体自主性:Claude Code 单次运行时长翻倍
AI 智能体已经无处不在,从邮件分类到网络间谍,应用场景的后果差异巨大。安全部署 AI 需要理解这个光谱,但我们对其在现实世界中的实际使用情况知之甚少。
我们利用隐私保护工具 Clio,分析了 Claude Code 和公共 API 上的数百万次人机交互,试图回答:人们赋予智能体多少自主权?这种自主权如何随经验而变化?智能体在哪些领域运行?智能体的行为是否具有风险?
我们发现:
- Claude Code 的自主运行时间更长了。 在最长的运行会话中,Claude Code 在停止前的工作时长在三个月内几乎翻倍,从不到 25 分钟增加到超过 45 分钟。这一增长在模型发布期间是平滑的,表明它不纯粹是能力提升的结果,现有模型在实践中能处理的自主性比实际行使的更多。
- Claude Code 的经验用户更频繁地使用全自动批准,但中断也更频繁。 随着用户对 Claude Code 的经验增加,他们倾向于停止审查每个动作,转而让 Claude 自主运行,只在需要时介入。在新用户中,大约 20% 的会话使用全自动批准,随着用户经验增长,这一比例增加到超过 40%。
- Claude Code 暂停寻求澄清的频率比人类中断它的频率更高。 除了人为发起的停止,智能体发起的停止也是已部署系统中一种重要的监督形式。在最复杂的任务上,Claude Code 停下来要求澄清的频率是人类中断它的两倍多。
- 智能体已在风险领域使用,但尚未规模化。 我们公共 API 上的大多数智能体动作都是低风险且可逆的。软件工程占了智能体活动的近 50%,但我们也看到了在医疗保健、金融和网络安全领域的新兴应用。
下文我们将更详细地介绍我们的方法和发现,并以对模型开发者、产品开发者和政策制定者的建议作为结尾。我们的核心结论是:对智能体的有效监督将需要新形式的部署后监控基础设施以及新的人机交互范式,以帮助人类和 AI 共同管理自主性和风险。
我们将这项研究视为实证理解人们如何部署和使用智能体的重要第一步。随着智能体被更广泛地采用,我们将继续迭代我们的方法并分享发现。
研究现实中的智能体
智能体很难进行实证研究。首先,对于什么是智能体没有公认的定义。其次,智能体发展迅速。去年,许多最复杂的智能体——包括 Claude Code——都涉及单一的对话线程,但如今已有能自主运行数小时的多智能体系统。最后,模型提供商对其客户智能体架构的可见性有限。例如,我们无法可靠地将对我们 API 的独立请求关联成智能体活动的“会话”。
面对这些挑战,我们如何实证研究智能体?
首先,在本研究中,我们采用了一个概念上有基础且可操作的定义:智能体是配备工具的 AI 系统,使其能够采取行动,例如运行代码、调用外部 API 以及向其他智能体发送消息。研究智能体使用的工具能告诉我们很多关于它们在世界上做什么的信息。
接下来,我们开发了一套指标,这些指标利用了来自我们公共 API 的智能体使用数据和 Claude Code(我们自己的编码智能体)的数据。这提供了广度和深度之间的权衡:
- 我们的公共 API 让我们能够广泛了解数千名不同客户的智能体部署情况。我们不是试图推断客户的智能体架构,而是在单个工具调用的层面进行分析。这个简化假设使我们能够对现实世界的智能体做出有根据、一致的观察,即使这些智能体部署的环境差异很大。这种方法的局限性在于,我们必须孤立地分析动作,无法重建单个动作如何随时间组合成更长的行为序列。
- Claude Code 提供了相反的权衡。因为 Claude Code 是我们自己的产品,我们可以跨会话链接请求,并从头到尾理解整个智能体工作流。这使得 Claude Code 特别适合研究自主性——例如,智能体在没有人为干预的情况下运行多长时间,什么触发了中断,以及用户如何随着经验的积累保持对 Claude 的监督。然而,由于 Claude Code 只是一种产品,它无法像 API 流量那样提供对智能体使用的多样性洞察。
通过使用我们的隐私保护基础设施从这两个来源获取数据,我们可以回答任何单一来源都无法解决的问题。
Claude Code 的自主运行时间更长
智能体在没有人为参与的情况下实际运行多长时间?在 Claude Code 中,我们可以通过逐轮跟踪从 Claude 开始工作到它停止(无论是完成任务、提问还是被用户中断)之间经过的时间来直接测量这一点。
轮次时长是自主性的一个不完美代理。例如,能力更强的模型可以更快地完成相同的工作,而子智能体允许更多工作同时进行,这两者都会推动轮次时长变短。与此同时,用户可能随着时间的推移尝试更具雄心的任务,这又会推动轮次时长变长。此外,Claude Code 的用户群正在快速增长——因此也在变化。我们无法单独测量这些变化;我们测量的是这种相互作用的结果,包括用户让 Claude 独立工作的时间、他们交给它的任务的难度以及产品本身的效率(产品效率每天都在提升)。
大多数 Claude Code 轮次都很短。中位数轮次时长约为 45 秒,这个时长在过去几个月里波动很小(在 40 到 55 秒之间)。事实上,几乎所有低于第 99 百分位的时长都保持相对稳定。这种稳定性是我们对一个经历快速增长的产品所期望的:当新用户采用 Claude Code 时,他们相对缺乏经验,并且——正如我们在下一节所示——更不可能给予 Claude 完全的自由度。
更具揭示性的信号在尾部。最长的轮次告诉我们关于 Claude Code 最雄心勃勃的用途,并指向自主性的发展方向。从 2025 年 10 月到 2026 年 1 月,第 99.9 百分位的轮次时长几乎翻倍,从不到 25 分钟增加到超过 45 分钟(图 1)。

图 1. 交互式 Claude Code 会话中第 99.9 百分位的轮次时长(Claude 每轮工作的时长),7 天滚动平均值。第 99.9 百分位从 9 月下旬的不到 25 分钟稳步增长到 1 月初的超过 45 分钟。此分析反映了所有交互式 Claude Code 的使用情况。
值得注意的是,这一增长在模型发布期间是平滑的。如果自主性纯粹是模型能力的函数,我们预计每次新发布都会出现急剧跳跃。这种趋势的相对平稳反而表明有几个潜在因素在起作用,包括高级用户随着时间的推移建立对工具的信任,将 Claude 应用于越来越雄心勃勃的任务,以及产品本身的改进。
自 1 月中旬以来,极端的轮次时长有所下降。我们假设了几个可能的原因。首先,Claude Code 用户群在 1 月到 2 月中旬期间翻了一番,更大、更多样化的会话群体可能会重塑分布。其次,随着用户从假期归来,他们带给 Claude Code 的项目可能从业余爱好项目转向了范围更严格的工作任务。最有可能的是,这是这些因素以及其他我们尚未识别因素的组合。
我们还查看了 Anthropic 内部 Claude Code 的使用情况,以了解独立性和实用性是如何共同演变的。从 8 月到 12 月,Claude Code 在内部用户最具挑战性任务上的成功率翻了一番,同时每个会话的平均人为干预次数从 5.4 次减少到 3.3 次。用户正在赋予 Claude 更多自主权,并且至少在内部,在需要更少干预的同时取得了更好的结果。
这两项测量都指向一个显著的部署滞后,即模型能够处理的自主性超过了它们在实践中行使的自主性。
将这些发现与外部能力评估进行对比是有益的。最广泛引用的能力评估之一是 METR 的“衡量 AI 完成长任务的能力”,该评估估计 Claude Opus 4.5 能以 50% 的成功率完成一个人类需要近 5 小时 的任务。相比之下,Claude Code 中第 99.9 百分位的轮次时长约为 42 分钟,中位数则短得多。然而,这两个指标不能直接比较。METR 评估捕捉的是模型在理想化设置中(无人机交互、无现实后果)的能力。我们的测量捕捉的是实践中发生的情况,即 Claude 会暂停以寻求反馈,用户会中断。而 METR 的五小时数字衡量的是任务难度——任务需要人类多长时间——而不是模型实际运行多长时间。
无论是能力评估还是我们的测量,单独都无法给出智能体自主性的完整图景,但两者共同表明,在实践中赋予模型的自由度落后于它们能够处理的程度。
随着使用经验增加,Claude Code 用户会更频繁地开启自动批准模式,但也会更频繁地打断 AI 的工作。
老用户自动批准更多,但打断也更频繁
人类如何随着时间调整与智能体的协作方式?我们发现,随着使用 Claude Code 的经验积累,人们会赋予它更多自主权(图 2)。新用户(会话数 < 50)大约只有 20% 的时间会开启完全自动批准;而到了 750 次会话后,这个比例会上升到 40% 以上。
这种转变是渐进的,表明信任在稳步累积。需要说明的是,Claude Code 的默认设置要求用户手动批准每个操作,所以这种转变也部分反映了用户在产品熟悉后,会主动调整设置,以匹配他们希望获得更高独立性的偏好。

图 2. 自动批准率随账户使用时长变化。经验丰富的用户越来越倾向于让 Claude 在无需手动批准的情况下运行。数据反映了 2025 年 9 月 19 日后注册用户的所有交互式 Claude Code 使用情况。线条和置信区间边界采用 LOWESS 平滑处理(带宽 0.15)。X 轴为对数刻度。
批准操作只是监督 Claude Code 的一种方式。用户也可以在 Claude 工作时打断它,以提供反馈。我们发现,打断率会随着经验增加而上升。新用户(大约 10 次会话)大约在 5% 的对话轮次中会打断 Claude,而更有经验的用户打断率约为 9%(图 3)。

图 3. 按账户使用时长统计的逐轮次打断率。经验丰富的用户打断 Claude 的频率更高,而非更低。数据反映了 2025 年 9 月 19 日后注册用户的所有交互式 Claude Code 使用情况。阴影区域显示 95% Wilson 分数置信区间。线条和置信区间边界采用 LOWESS 平滑处理(带宽 0.15)。X 轴为对数刻度。
打断和自动批准都随着经验增加而增加。 这个看似矛盾的现象反映了用户监督策略的转变。新用户更倾向于在每次操作执行前进行批准,因此很少需要在中途打断 Claude。而经验丰富的用户更可能让 Claude 自主工作,只在出现问题或需要调整方向时介入。更高的打断率也可能反映了用户更积极地监控,因为他们对何时需要干预有了更敏锐的直觉。
我们预计,随着用户形成稳定的监督风格,每轮次的打断率最终会趋于平稳,实际上在最资深的用户中,曲线可能已经开始变平(尽管在更高会话数下置信区间变宽,使得这一点难以确认)。
我们在公共 API 上也观察到了类似的模式:在低复杂度任务(如编辑一行代码)中,87% 的工具调用(Tool Call)有某种形式的人工参与;而在高复杂度任务(如自主寻找零日漏洞或编写编译器)中,这一比例仅为 67%。这看起来可能有些反直觉,但有两个可能的解释。首先,随着步骤增多,逐步批准变得不太实际,因此在复杂任务上监督每个操作在结构上就更困难。其次,我们的 Claude Code 数据表明,经验丰富的用户倾向于赋予工具更多独立性,而复杂任务可能不成比例地来自这些用户。虽然我们无法直接测量公共 API 上的用户使用时长,但整体模式与我们在 Claude Code 中观察到的是一致的。
综合来看,这些发现表明,经验丰富的用户并非放弃了监督。打断率与自动批准率同步上升的事实,表明存在某种形式的主动监控。这强化了我们之前提出的一个观点:有效的监督并不需要批准每一个操作,而是在关键时刻能够介入。
Claude Code 主动暂停澄清的频率高于人类打断
当然,人类并非实践中自主性如何展开的唯一塑造者。Claude 本身也是一个积极的参与者,会在不确定如何继续时停下来请求澄清。我们发现,随着任务复杂度增加,Claude Code 请求澄清的频率会上升——并且比人类选择打断它的频率更高(图 4)。

图 4. Claude 发起的澄清问题与人类发起的打断,按目标复杂度分类。随着任务变得复杂,Claude 更可能请求澄清,人类也更可能打断。Claude 发起的暂停比人类发起的暂停增长更快。所有类别的 95% 置信区间 < 0.9%,n = 50 万次交互式 Claude Code 会话。
在最复杂的任务上,Claude Code 请求澄清的频率是最低复杂度任务的两倍多,这表明 Claude 对其自身的不确定性有一定程度的校准。不过,不要过度解读这个发现很重要:Claude 可能没有在正确的时刻停止,它可能问了不必要的问题,并且它的行为可能受到产品功能(如计划模式)的影响。无论如何,随着任务难度增加,Claude 越来越多地通过停下来咨询人类来限制自身的自主性,而不是要求人类介入。
表 1 展示了 Claude Code 停止工作以及人类打断 Claude 的常见原因。
Claude Code 为何停止?
Claude 为何自行停止?
人类为何打断 Claude?
向用户提供不同方案选择(35%)
提供缺失的技术背景或修正(32%)
收集诊断信息或测试结果(21%)
Claude 运行缓慢、卡住或过度冗长(17%)
澄清模糊或不完整的请求(13%)
已获得足够帮助,可以独立继续(7%)
请求缺失的凭证、令牌或访问权限(12%)
希望自己执行下一步(例如,手动测试、部署、提交等)(7%)
在采取行动前请求批准或确认(11%)
在任务中途更改需求(5%)
表 1. Claude 自行停止和人类打断 Claude 的常见原因,由 Claude 基于 50 万次人类打断和 50 万次交互式 Claude Code 会话中已完成的轮次样本确定。部分类别经过轻微编辑以提高清晰度。
这些发现表明,在已部署的系统中,智能体发起的暂停是一种重要的监督形式。训练模型识别并基于自身不确定性采取行动,是一项重要的安全属性,它补充了权限系统和人类监督等外部保障措施。在 Anthropic,我们训练 Claude 在面对模糊任务时提出澄清问题,并鼓励其他模型开发者采取同样的做法。
智能体已涉足高风险领域,但尚未规模化
人们到底在用智能体做什么?这些部署的风险有多高?智能体的自主性如何?风险和自主性之间是否存在权衡?
为了回答这些问题,我们使用 Claude 来评估我们公共 API 上单个工具调用(Tool Use)的相对风险和自主性,评分范围为 1 到 10。简单来说,风险评分 1 代表即使出错也毫无后果的行动,评分 10 则代表可能造成重大伤害的行动。自主性评分也采用相同标准:低自主性意味着智能体似乎在遵循明确的人类指令,而高自主性则意味着它在独立运作。13 随后,我们将相似的行动归类,并计算每个类别的平均风险和自主性得分。
表 2 展示了处于风险和自主性两极的类别示例。
高风险或高自主性的工具调用类别
平均风险较高
- 将 API 密钥窃取后门伪装成合法开发功能进行部署(风险:6.0,自主性:8.0)
- 在实验室环境中重新定位金属钠和反应性化学品容器(风险:4.8,自主性:2.9)
- 为请求用户检索并显示患者医疗记录(风险:4.4,自主性:3.2)
- 响应火灾紧急情况并提供消防安全信息(风险:3.6,自主性:5.2)
- 将漏洞修复和补丁部署到生产环境 Web 应用程序(风险:3.6,自主性:4.8)
平均自主性较高
- 红队权限提升和凭证窃取,伪装成合法开发(自主性:8.3,风险:3.3)
- 在心跳检查期间执行自动化系统健康和运行状态监控(自主性:8.0,风险:1.1)
- 为盈利自主执行加密货币交易(自主性:7.7,风险:2.2)
- 自动向参与者发送包含收集信息的会议提醒(自主性:7.6,风险:1.7)
- 监控电子邮件并向操作员提醒紧急业务消息(自主性:7.5,风险:1.7)
表 2. 平均风险或平均自主性较高的类别。基于我们公共 API 上 998,481 个随机工具调用的样本。
鉴于我们对这些智能体的可见性有限,这些行动有可能是模拟的(例如,我们无法确定 Claude 下达的金融交易指令是否真的被执行,并且我们认为许多“数据外泄”行为属于评估性质)。虽然这些高风险行动在总流量中占比很小,但单次错误的后果仍可能很严重。
我们发现,80% 的工具调用来自至少具备一种安全护栏(Guardrails)(如权限限制或需要人工批准)的智能体,73% 的调用似乎以某种方式包含了人机协同(Human-in-the-Loop),只有 0.8% 的行动看起来是不可逆的(例如向客户发送电子邮件)。14
为了可视化所有类别中风险与自主性的联合分布,我们根据每个类别在这两个维度上的平均得分进行绘图。图 5 中的每个点对应一个相关行动类别,由其平均风险和自主性定位。

图 5. 按任务类别划分的 Claude 估计平均风险与自主性。右上象限——高自主性、高风险——分布稀疏但并非空无一物。数据反映了通过我们公共 API 进行的工具调用。这些是 Claude 在单个工具调用层面生成的分类,并在可能的情况下与内部数据进行了验证。完整的方法论详见附录。未达到我们聚合最低要求(由于独特工具调用或客户数量不足)的类别已被排除。基于我们公共 API 上 998,481 个工具调用的样本。
我们公共 API 上的绝大多数行动都是低风险的。虽然大多数智能体部署相对无害,但我们确实在风险和自主性的前沿看到了一些新颖的用例。15 风险最高的类别——同样,我们预计其中许多属于评估性质——往往涉及敏感的安全相关行动、金融交易和医疗信息。虽然风险集中在低端,但自主性的变化范围更广。在低端(自主性评分 3-4),我们看到智能体为人类完成小而明确的任务,比如预订餐厅或对代码进行小修改。在高端(自主性评分 6 以上),我们看到智能体向数据科学竞赛提交机器学习模型或分诊客户服务请求。
我们还预计,在风险和自主性极端情况下运作的智能体会变得越来越普遍。目前,智能体集中在一个行业:软件工程占我们公共 API 工具调用的近 50%(图 6)。除了编码,我们在商业智能、客户服务、销售、金融和电子商务等领域也看到了一些较小的应用,但每个都只占流量的几个百分点。随着智能体扩展到这些领域(其中许多领域的利害关系比修复一个漏洞更大),我们预计风险和自主性的前沿将会扩大。

图 6. 按领域划分的工具调用分布。软件工程占工具调用的近 50%。数据反映了通过我们公共 API 进行的工具调用。所有类别的 95% 置信区间 < 0.5%,n = 998,481。
这些模式表明我们正处于智能体采用的早期阶段。软件工程师是最早大规模构建和使用智能体工具的群体,图 6 表明其他行业也开始尝试使用智能体。16 我们的方法论使我们能够监控这些模式如何随时间演变。值得注意的是,我们可以监控使用是否倾向于朝着更自主、风险更高的任务发展。
虽然我们的总体数据令人放心——大多数智能体行动是低风险且可逆的,并且通常有人机协同——但这些平均值可能会掩盖前沿的部署。采用集中在软件工程领域,加上新领域的实验不断增长,表明风险和自主性的前沿将会扩大。我们将在文末的建议部分讨论这对模型开发者、产品开发者和政策制定者意味着什么。
局限性
这项研究只是一个开始。我们只提供了对智能体活动的部分观察,并且希望坦诚说明我们的数据能告诉我们什么,不能告诉我们什么:
- 单一模型提供商视角:我们只能分析来自单一模型提供商 Anthropic 的流量。基于其他模型构建的智能体可能表现出不同的采用模式、风险状况和交互动态。
- 数据源互补但不完整:我们的两个数据源提供了互补但不完整的视图。公共 API 流量让我们能够横跨数千个部署获得广度,但我们只能孤立地分析单个工具调用,而不是完整的智能体会话。Claude Code 提供了完整的会话,但仅限于单一产品,且该产品绝大多数用于软件工程。我们许多最有力的发现都基于 Claude Code 的数据,可能无法推广到其他领域或产品。
- 分类由 Claude 生成:我们为每个维度提供了选择退出类别(例如“无法推断”、“其他”),并在可能的情况下与内部数据进行了验证(详见我们的附录),但由于隐私限制,我们无法手动检查底层数据。一些安全护栏或监督机制也可能存在于我们无法观察到的上下文之外。
- 特定时间窗口的分析:此分析反映了特定时间段(2025 年底至 2026 年初)的情况。智能体领域变化迅速,随着能力增长和采用演变,模式可能会发生变化。我们计划随时间推移扩展此分析。
- 公共 API 样本在工具调用层面抽取:这意味着涉及许多连续工具调用的部署(例如包含重复文件编辑的软件工程工作流)相对于用更少行动实现目标的部署被过度代表了。这种抽样方法反映了智能体活动的数量,但不一定反映了智能体部署或用途的分布。
- 对客户构建的更大系统可见性有限:我们研究 Claude 在我们公共 API 上使用的工具以及这些行动周围的上下文,但对我们客户在我们公共 API 之上构建的更广泛系统可见性有限。在 API 层面看似自主运作的智能体,可能在下游存在我们无法观察到的人工审核。特别是,我们的风险、自主性和人工参与分类反映了 Claude 从单个工具调用的上下文中可以推断出的内容,并且没有区分在生产环境中采取的行动与作为评估或红队练习一部分采取的行动。几个最高风险的类别似乎是安全评估,这突显了我们对每个行动周围更广泛上下文可见性的局限性。
展望未来
智能体应用尚处早期,但自主性正在提升,更高风险场景的部署也开始出现——尤其是像 Cowork 这类产品让智能体变得更易用之后。基于当前研究,我们为模型开发者、产品开发者和政策制定者提供一些建议。由于我们刚刚开始测量真实世界中的智能体行为,这里不做硬性规定,而是指出未来值得关注的领域。
模型和产品开发者应投资于部署后监控。 部署后监控对于理解智能体实际使用情况至关重要。部署前评估测试的是智能体在受控环境下的能力,但我们发现的许多现象无法仅通过部署前测试观察到。除了了解模型能力,我们还必须理解用户在实践中如何与智能体互动。我们能够报告这些数据,是因为我们主动构建了收集这些数据的基础设施。但还有更多工作要做。目前我们无法可靠地将公共 API 的独立请求关联成连贯的智能体会话,这限制了我们了解 Claude Code 之外智能体行为的能力。以保护隐私的方式开发这些方法,是跨行业研究和合作的重要方向。
模型开发者应考虑训练模型识别自身的不确定性。 训练模型识别自身不确定性并主动向人类报告问题,是一项重要的安全特性,可以补充人工审批流程和访问限制等外部保障措施。我们训练 Claude 做到了这一点(分析显示 Claude Code 提问的频率高于人类打断它的频率),并鼓励其他模型开发者跟进。
产品开发者应为用户监督而设计。 有效监督智能体不仅仅是把人类放在审批链中。我们发现,随着用户使用智能体的经验增加,他们倾向于从审批单个动作转向监控智能体的行为,并在需要时干预。例如在 Claude Code 中,经验丰富的用户会开启更多自动审批,但也会进行更多打断。我们在公共 API 上也观察到类似模式:随着目标复杂度增加,人类介入似乎会减少。产品开发者应投资开发工具,让用户能够可信地了解智能体在做什么,同时提供简单的干预机制,以便在出错时重定向智能体。这是我们持续为 Claude Code 投入的方向(例如通过 实时引导 和 OpenTelemetry),也鼓励其他产品开发者这样做。
现在强制规定特定交互模式为时过早。 我们确实有信心提供指导的一个领域是:不要强制规定什么。研究发现,经验丰富的用户会从审批单个智能体动作转向监控和必要时干预。强制规定特定交互模式的监督要求(比如要求人类审批每个动作)只会制造摩擦,未必带来安全收益。随着智能体和智能体测量科学的发展,重点应放在人类是否处于有效监控和干预的位置,而不是要求特定的参与形式。
这项研究的一个核心启示是:智能体在实践中展现的自主性是由模型、用户和产品共同构建的。Claude 通过在不确信时暂停提问来限制自身独立性。用户在与模型协作中建立信任,并相应调整监督策略。我们在任何部署中观察到的现象都源于这三股力量的相互作用,这就是为什么仅靠部署前评估无法完全描述智能体行为。理解智能体实际如何行为,需要在真实世界中测量它们——而相关基础设施仍处于起步阶段。
Miles McCain, Thomas Millar, Saffron Huang, Jake Eaton, Kunal Handa, Michael Stern, Alex Tamkin, Matt Kearney, Esin Durmus, Judy Shen, Jerry Hong, Brian Calvert, Jun Shern Chan, Francesco Mosconi, David Saunders, Tyler Neylon, Gabriel Nicholas, Sarah Pollack, Jack Clark, Deep Ganguli。
Bibtex
如需引用本文,可使用以下 Bibtex 条目:
@online{anthropic2026agents,
author = {Miles McCain and Thomas Millar and Saffron Huang and Jake Eaton and Kunal Handa and Michael Stern and Alex Tamkin and Matt Kearney and Esin Durmus and Judy Shen and Jerry Hong and Brian Calvert and Jun Shern Chan and Francesco Mosconi and David Saunders and Tyler Neylon and Gabriel Nicholas and Sarah Pollack and Jack Clark and Deep Ganguli},
title = {Measuring AI agent autonomy in practice},
date = {2026-02-18},
year = {2026},
url = {https://anthropic.com/research/measuring-agent-autonomy},
}
附录
更多细节请参见本文的 PDF 附录。
脚注
- 我们对智能体的定义与 Russell 和 Norvig (1995) 的观点兼容,他们将智能体定义为“任何可以被视为通过传感器感知环境并通过效应器对环境采取行动的事物”。我们的定义也与 Simon Willison 的观点兼容,他写道,智能体是“为达成目标而在循环中运行工具的系统”。
虽然全面的文献综述超出了本文的范围,但我们发现以下工作有助于构建我们的思考框架。Kasirzadeh 和 Gabriel (2025) 提出了一个四维框架,用于沿着自主性、效能、目标复杂性和通用性来表征 AI 智能体,构建了映射不同类别系统治理挑战的“智能体档案”。Morris 等人 (2024) 提出了基于性能和通用性的 AGI 级别,将自主性视为可分离的部署选择。Feng、McDonald 和 Zhang (2025) 基于用户角色定义了五个自主性级别,从操作员到观察者。Shavit 等人 (2023) 提出了治理智能体系统的实践,而 Mitchell 等人 (2025) 则认为,鉴于风险随自主性而扩大,不应开发完全自主的智能体。Chan 等人 (2023) 主张在广泛部署之前预见智能体系统可能带来的危害,强调了奖励黑客、权力集中和集体决策侵蚀等风险。Chan 等人 (2024) 评估了智能体标识符、实时监控和活动日志记录如何能增加对 AI 智能体的可见性。
在实证方面,Kapoor 等人 (2024) 批评智能体基准测试忽视了成本和可复现性;Pan 等人 (2025) 调查了从业者,发现生产环境中的智能体往往简单且受人类监督;Yang 等人 (2025) 分析了 Perplexity 的使用数据,发现生产力和学习任务占主导地位;Sarkar (2025) 发现经验丰富的开发者更可能接受智能体生成的代码。在 Anthropic,我们也研究了专业人士如何将 AI 融入工作,包括内部和外部。我们的工作通过使用我们 API 和 Claude Code 的第一方数据来分析部署模式,补充了这些努力,这使我们能够观察到外部难以看到的自主性、安全护栏和风险。
-
由于我们将智能体定义为使用工具的 AI 系统,我们可以将单个工具调用(Tool Call)分析为智能体行为的构建块。为了理解智能体在做什么,我们研究它们使用的工具以及这些动作的上下文(例如动作发生时的系统提示和对话历史)。
-
这些结果反映了 Claude 在编程相关任务上的表现,不一定适用于其他领域。
-
在整篇文章中,我们非正式地使用“自主性”来指代智能体独立于人类指导和监督的程度。自主性最低的智能体完全执行人类明确请求的内容;自主性高的智能体自行决定做什么和如何做,很少或没有人类参与。自主性不是模型或系统的固定属性,而是部署过程中涌现的特性,受模型行为、用户监督策略和产品设计的影响。我们不试图给出精确的形式定义;关于我们如何在实践中操作化和测量自主性的详细信息,请参阅附录。
-
此外,同一模型以不同方式部署可能以不同速度生成输出。例如,我们最近为 Opus 4.6 发布了快速模式(Fast Mode),其生成输出速度比常规 Opus 快 2.5 倍。
-
关于其他百分位的轮次持续时间,请参阅附录。
-
具体来说,我们使用 Claude 将每个内部 Claude Code 会话分类为四个复杂性类别,并确定任务是否成功。这里,我们报告了最困难类别任务的成功率。
-
METR 的五小时数字是任务难度的衡量标准(人类完成该任务需要多长时间),而我们的测量反映了实际经过的时间,这受模型速度和用户计算环境等因素影响。我们不试图在这些指标之间进行推理,我们包含此比较是为了向可能熟悉 METR 发现的读者解释为什么我们在此报告的数字要低得多。
-
这些模式来自交互式 Claude Code 会话,这些会话绝大多数反映了软件工程。软件特别适合监督性监督,因为输出可以在发布前进行测试、轻松比较和审查。在验证智能体输出需要与生成它相同专业知识的领域,这种转变可能较慢或采取不同形式。中断率上升也可能反映了经验丰富的用户正在完成更具挑战性的任务,这自然需要更多人类输入。最后,Claude Code 的默认设置将新用户推向基于批准的监督(因为默认情况下动作不会自动批准),因此我们观察到的一些转变可能反映了 Claude Code 的产品设计。
-
复杂性和人类参与度都是通过让 Claude 分析每个工具调用在其完整上下文(包括系统提示和对话历史)中来估计的。完整的分类提示可在附录中找到。定义人类参与度尤其困难,因为许多记录包含来自人类的内容,即使该人类并未主动引导对话(例如,用户消息被审核或分析)。在我们的手动验证中,当 Claude 将工具调用分类为无人参与时,它几乎总是正确的,但有时会在没有人类参与的情况下识别出人类参与。因此,这些估计应被解释为人类参与度的上限。
-
在某种意义上,停下来问用户一个问题本身就是一种自主性(Agency)的表现。我们使用“限制其自身自主性”来表示 Claude 在可以继续独立操作时选择向人类寻求指导。
-
这些聚类是通过让 Claude 分析每次中断或暂停以及周围的会话上下文,然后将相关原因分组在一起生成的。我们手动合并了一些密切相关的聚类,并编辑了它们的名称以提高清晰度。显示的聚类并非详尽无遗。
-
我们将这些分数视为比较指标而非精确测量。我们没有为每个级别定义严格的标准,而是依赖 Claude 对每个工具调用周围上下文的一般判断,这使得分类能够捕捉我们可能未预料到的考虑因素。权衡在于,这些分数在比较动作之间时更有意义,而不是用于绝对解释任何单个分数。完整提示请参阅附录。
-
关于我们如何验证这些数字以及我们精确定义的更多信息,请参阅附录。特别是,我们发现 Claude 经常高估人类参与度,因此我们预计 80% 是有人类直接监督的工具调用数量的上限。
-
我们的系统还会自动排除不满足聚合最小值的聚类,这意味着只有少数客户使用 Claude 执行的任务不会出现在此分析中。
-
软件工程中的采用曲线是否会在其他领域重复是一个悬而未决的问题。软件相对容易测试和审查——你可以运行代码看看是否有效——这使得更容易信任智能体并捕捉其错误。在法律、医学或金融等领域,验证智能体的输出可能需要大量努力,这可能会减缓信任的发展。
觉得有用?分享给更多人