S
SkillNav

Anthropic 发布 Agent 自主性实测:Claude Code 从 25 分钟提升至 45 分钟以上

深度2026-02-19T07:55:36+00:008 分钟阅读
Anthropic 发布 Agent 自主性实测:Claude Code 从 25 分钟提升至 45 分钟以上

有不少零散但值得注意的小动态:我们曾邀请过的 李飞飞的 World Labs《The Era of Experience》的 David Silver 都拿到了惊人的 10 亿美元融资;与此同时,Anthropic 正式封禁 OpenClaw 使用 Claude OAuth Token(与 OpenCode 之后的政策一致);同一天,OpenAI 员工也很“友好地”提醒大家 也可以改用 OpenAI 的方案(我们当然相信这完全是巧合)。

不过,这些很快都会过去。今天我们真正想强调的是 Anthropic 对自家 API 使用模式的研究:Measuring AI agent autonomy in practice。不出所料,主要使用场景仍是编程;但沿着榜单往下看,你已经能识别出下一批最可能被 Agent 吃下的任务类型:

[

](https://substackcdn.com/image/fetch/$s_!iAa9!,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F92d32668-1f3b-45bf-8cdb-975742145b44_1830x1154.png)

文章大部分内容围绕 Claude Code 的使用展开。我们看到了 Anthropic 视角下“自主性增强”的轨迹:从 9 月的 25 分钟,提升到 1 月的 45 分钟以上;2026 年 1–2 月用户规模突然 翻倍 时出现一次下滑,随后随着 Opus 4.6 发布再次回升。

[

](https://substackcdn.com/image/fetch/$s_!c74W!,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F18a91dee-c7fa-409d-9541-b34e24bba31c_1938x1236.png)

这与著名的 METR 图表是“口径不同但方向相近”的故事。正如我们将在即将发布、与 METR 的播客中解释的那样:METR 采用的是 HUMAN EQUIVALENT HOURS 的 50 分位成功率;而不是像 Claude Code 自主执行那样看 99.9 分位的长尾自主性。因此会呈现出非常不同(且在极端值上更波动)的趋势:Agent 几乎可覆盖 5 小时的人类工作量。

[

](https://substackcdn.com/image/fetch/$s_!S9I7!,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F0016aa23-88fb-4fb5-844a-d794ae5e7936_1992x1566.png)

正如 Anthropic 所说:

METR 评估衡量的是:在理想化环境下、没有人类交互且没有真实世界后果时,模型“能够做到什么”。而我们的测量捕捉的是现实中的实际情况:Claude 会停下来请求反馈,用户也会打断流程。并且,METR 的“五小时”衡量的是任务难度——也就是人类完成该任务需要多久——而不是模型实际运行了多久。

(另外……

大多数 Claude Code 回合都很短。中位数回合时长约 45 秒,过去几个月仅有小幅波动(40 到 55 秒之间)。事实上,99 分位以下几乎所有分位都相对稳定。)

说到这里已经很清楚了。由于 Anthropic 拥有完整的 Claude Code 遥测数据,它还能给出其他人拿不到的自主性指标。比如:新用户一开始 auto-approve 比例约为 20%,随着经验积累会提升到 >50%。

[

](https://substackcdn.com/image/fetch/$s_!BDdT!,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F0c1ac831-d439-4a2e-8aac-2aa5b309e390_1720x1112.png)

……不过他们打断 Claude 的频率也几乎翻倍:

[

](https://substackcdn.com/image/fetch/$s_!P1Br!,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F24df5029-cbb7-4d16-99b7-08bc18108a7b_1692x1158.png)

文中还分析了 Claude 在何时会主动打断流程、请求澄清:校准质量不错,并对触发原因及频率做了很好的拆分:

[

](https://substackcdn.com/image/fetch/$s_!brVT!,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F8518fe8e-229d-437d-9ab6-344b3c885c96_1404x1316.png)

文章其余部分更偏安全议题,但仅凭这份 Agent 使用数据,AI Engineers 就已经能提炼出大量实战启发。

前沿模型与基准榜单洗牌(Claude 4.6、Qwen3.5、GLM‑5、Gemini 3.1 Pro、MiniMax M2.5)

  • Anthropic Claude Opus/Sonnet 4.6:能力大跳升,Token 成本也大涨:Artificial Analysis 报告称,Sonnet 4.6 在其 Intelligence Index 上达到 51(相较 Sonnet 4.5 reasoning 的 43 明显提升),仅次于 Opus 4.653。但 Token 效率显著更差:完整跑完测试集需要 ~74M output tokens,而 Sonnet 4.5 约 ~25M、Opus 4.6 约 ~58M;在 max effort 配置下,Sonnet 4.6 跑完整个指数成本约 $2,088AA summary, token note)。社区反馈也呼应“4.6 在 critique/architecture 上体验更好”(eshear),但同时指出 Claude Code 在可靠性/产品层面仍有问题(围绕 SDK/docs 与工具稳定性的“Anthropic drama”讨论)(theo)。

  • Claude 进入 Search Arena + 自主性遥测公开:Arena 将 Opus/Sonnet 4.6 加入其搜索模态榜单(arena)。Anthropic 同时发布“Measuring AI agent autonomy in practice”,基于数百万次工具调用交互进行分析:约 ~73% 的工具调用呈现 human-in-the-loop,仅 0.8% 看起来是 irreversible,而在其 API 中 software engineering 占工具调用约 ~50%。其核心观点是“自主性由模型 + 用户 + 产品共同建构”,并据此强调部署后的持续监测(Anthropic, metrics, industry mix)。

  • Qwen 3.5:推理效率与“过度思考”之争:多条讨论将 Qwen3.5 的“overthinking”/Token 开销作为关键观察维度,既有抱怨(QuixiAI),也有更深入的社区分析:Qwen3.5-Plus 相较旧版 Qwen reasoning 变体减少了长链 Token 膨胀,但在 non-reasoning 模式下存在回退(ZhihuFrontier)。分发侧方面,Qwen3.5-Plus 已接入 Vercel AI GatewayAlibaba_Qwen),阿里云也推出了面向 coding agents 的 Qwen Coding Plan 订阅,主打固定月费与高请求上限(Alibaba_Qwen)。

  • Qwen3.5-397B-A17B FP8 权重开放:阿里发布 Qwen3.5‑397B‑A17BFP8 weights,并宣布已合并 SGLang supportvLLM PR 在推进中(预计“接下来几天”支持)。这是“开放权重 + 生态即刻跟进”成为竞争性 OSS 发布标配的典型案例(Alibaba_Qwen)。

  • GLM‑5 技术报告 + “agentic engineering” RL 基础设施GLM‑5 技术报告被直接引用(scaling01),并被总结为从 vibe-coding 走向“agentic engineering”:采用 asynchronous agent RL,将 generation 与 training 解耦,并引入 DSA 在保持长上下文性能的同时降低算力开销(omarsar0)。实践者评价该报告细节密度很高,对 OSS 复现价值大,尤其点名了优化器/状态管理以及 agentic 数据构建细节(终端环境、幻灯片生成等)(Grad62304977)。

  • Gemini 3.1 Pro 传闻 + “更长思考”:早期测试反馈显示,Gemini 3.1 Pro 的“thinking”轨迹明显长于 Gemini 3 Pro,可能缩小与 Opus/GPT 的差距;但也伴随对 benchmark 可信度的质疑,以及在对抗性样例上的失败(例如处理包含答案的 ARC-AGI-2 提示词时失误)(scaling01, ARC anecdote)。

  • MiniMax M2.5 出现在社区榜单:Yupp/OpenRouter 的帖子显示已接入 MiniMax M2.5M2.5 Lightning,并通过 prompt-vote 榜单持续追踪结果(yupp_ai, OpenRouter benchmark tab)。

Agentic coding + harness engineering(Claude Code、Cursor、LangSmith、Deep Agents、SWE-bench process)

原文链接:https://www.latent.space/p/ainews-anthropics-agent-autonomy

相关文章

AINews:Harness Engineering 到底是不是一门真学问?
深度·3月5日
AINews:Harness Engineering 到底是不是一门真学问?

这篇文章围绕 AI 工程中的核心争议展开:系统能力究竟主要来自更强的模型(Big Model),还是来自更强的编排层(Big Harness)。文中汇总了 OpenAI、Anthropic、Scale AI、METR 等多方观点与数据,显示两派在“模型进步会不会吞噬 Harness 价值”上分歧明显。作者最终认为,随着 Agent 产品落地加速,Harness Engineering 的独立价值正在被市场和社区进一步确认。

10 分钟
每个 Agent 都需要一个 Box:Aaron Levie 谈 AI 时代的新基础设施
深度·3月5日
每个 Agent 都需要一个 Box:Aaron Levie 谈 AI 时代的新基础设施

在围绕“AI 是否正在杀死 SaaS”的争论中,Box CEO Aaron Levie 提出相反观点:企业内容与文件系统在 Agent 时代反而更关键。随着 Filesystem、Sandbox 和 Agent 工作流快速普及,核心问题从“让 Agent 能做事”转向“如何治理 Agent 的身份、权限与安全边界”。他认为,未来企业将拥有远多于人的 Agent 数量,而真正的竞争力在于率先完成面向 Agent 的组织与基础设施改造。

8 分钟