Anthropic 发布 Claude Sonnet 4.6:默认上线,1M Token 上下文进入测试
发布 Claude Sonnet 4.6
摘要:Claude Sonnet 4.6 在编程、电脑操作、长链路推理、Agent 规划、知识工作与设计等方面实现了全面能力升级。
_Claude Sonnet 4.6 是我们迄今能力最强的 Sonnet 模型_。它在编程、电脑操作、长上下文推理、Agent 规划、知识工作和设计等方面进行了全面升级。Sonnet 4.6 还提供测试版 1M Token 上下文窗口。
对于使用 [Free 和 Pro 套餐](https://claude.com/pricing) 的用户,Claude Sonnet 4.6 现已成为 [claude.ai](https://claude.ai/redirect/website.v1.fb363eb7-e3d2-40cc-8949-0ed97ed01e66) 和 [Claude Cowork](https://claude.com/product/cowork) 的默认模型。其 [定价](https://claude.com/pricing#api) 与 Sonnet 4.5 保持一致,仍为每百万 Token 输入/输出 $3/$15 起。
Sonnet 4.6 将显著增强的编程能力带给了更多用户。在一致性、指令遵循等方面的提升,使得获得抢先体验的开发者相较前代模型明显更偏好 Sonnet 4.6。他们甚至常常更偏好它,而不是我们在 2025 年 11 月推出的最强模型 Claude Opus 4.5。
过去需要动用 Opus 级模型才能实现的性能——包括在真实世界、具备经济价值的 [办公任务](https://artificialanalysis.ai/evaluations/gdpval-aa) 场景——现在通过 Sonnet 4.6 也可获得。与以往 Sonnet 模型相比,Sonnet 4.6 在电脑操作能力上同样有明显提升。
与每一代新 Claude 模型一样,我们对 Sonnet 4.6 进行了 [大规模安全评估](https://anthropic.com/claude-sonnet-4-6-system-card)。整体结果显示,它与近期其他 Claude 模型同样安全,甚至更安全。我们的安全研究人员认为,Sonnet 4.6 具备“整体温和、诚实、亲社会、有时还颇具幽默感的特征,安全行为非常强,没有发现高风险错位问题方面的重大隐患”。
电脑操作(Computer use)
几乎每家组织都有一类难以自动化的软件:它们是早于 API 等现代接口诞生的专用系统和工具。过去若要让 AI 使用这类软件,用户通常需要开发定制连接器。但当模型能够像人一样操作电脑时,局面就改变了。
在 2024 年 10 月,我们 [率先推出](https://www.anthropic.com/news/3-5-models-and-computer-use) 了通用型电脑操作模型。当时我们写道,该能力“仍处于实验阶段——在某些情况下笨拙且易出错”,但我们预计会快速改进。用于衡量 AI 电脑操作能力的标准基准 [OSWorld](https://os-world.github.io/) 清晰展示了模型进步幅度。该基准在模拟电脑上运行真实软件(Chrome、LibreOffice、VS Code 等)并设置数百项任务。系统不提供专用 API,也没有定制连接器;模型像人一样“看见”电脑并交互:点击(虚拟)鼠标、输入(虚拟)键盘。
在过去 16 个月里,我们的 Sonnet 系列模型在 OSWorld 上持续提升。这种进步也体现在基准之外:早期 Sonnet 4.6 用户已观察到其在复杂表格导航、多步骤网页表单填写等任务上达到“类人能力”,并能在多个浏览器标签页之间整合工作流。
当然,该模型在电脑操作能力上仍落后于最熟练的人类。但其进步速度依然令人瞩目。这意味着电脑操作能力对于更多工作任务已经变得更有实用价值,也意味着更强模型正在变得触手可及。

在 Claude Sonnet 4.5 之前的成绩基于原版 OSWorld;从 Sonnet 4.5 开始则采用 OSWorld-Verified。OSWorld-Verified(发布于 2025 年 7 月)是在原版 OSWorld 基础上的原地升级,更新了任务质量、评估评分方式和基础设施。
与此同时,电脑操作也带来风险:恶意行为者可能通过在网页中隐藏指令实施 prompt injection 攻击以劫持模型。我们一直在提升模型对 prompt injection 的抵抗能力——我们的 [安全评估](https://anthropic.com/claude-sonnet-4-6-system-card) 显示,Sonnet 4.6 相比前代 Sonnet 4.5 有显著改进,且表现与 Opus 4.6 相近。关于如何缓解 prompt injection 及其他安全问题,可参考 [API 文档](https://platform.claude.com/docs/en/test-and-evaluate/strengthen-guardrails/mitigate-jailbreaks)。
评估 Claude Sonnet 4.6
除电脑操作外,Claude Sonnet 4.6 在各项基准测试中也实现全面提升。它以更实用的价格区间逼近 Opus 级智能,从而覆盖更多任务场景。关于 Sonnet 4.6 的完整能力分析及安全行为说明,可见 [system card](https://anthropic.com/claude-sonnet-4-6-system-card);下文给出摘要及与近期模型的对比。

在 Claude Code 的早期测试中,用户约 70% 的情况下更偏好 Sonnet 4.6 而非 Sonnet 4.5。用户反馈它在修改代码前更会先读懂上下文,也更擅长合并共用逻辑而不是重复实现。因此在长会话中,使用体验比早期模型更少挫败感。
用户甚至有 59% 的时间更偏好 Sonnet 4.6,而不是 11 月发布的前沿模型 Opus 4.5。用户评价 Sonnet 4.6 明显更少“过度工程”和“偷懒”现象,在指令遵循方面有实质提升。其“虚假成功声明”更少、幻觉更少、多步骤任务执行一致性更高。
Sonnet 4.6 的 1M Token 上下文窗口足以在单次请求中容纳完整代码库、长合同或数十篇研究论文。更关键的是,Sonnet 4.6 能够在这些海量上下文上_有效推理_,从而显著增强长周期规划能力。我们在 [Vending-Bench Arena](https://andonlabs.com/evals/vending-bench-arena) 评测中尤为清楚地观察到这一点。该评测测试模型如何长期经营一家(模拟)企业,并引入竞争机制:不同 AI 模型相互对抗,以获取最大利润。
Sonnet 4.6 发展出一个有趣的新策略:在前 10 个模拟月中重投入产能建设,支出显著高于竞争对手;随后在后程迅速转向利润优先。这一转向时机帮助其最终明显领先于竞争者。

Sonnet 4.6 在 Vending-Bench Arena 上通过前期投入产能、后期转向盈利,表现优于 Sonnet 4.5。
早期客户还反馈了广泛提升,其中前端代码与金融分析尤为突出。客户独立反馈称,Sonnet 4.6 的可视化输出明显更精致,布局、动画与设计感均优于前代模型;为达到生产级结果所需的迭代轮次也更少。

> Claude Sonnet 4.6 在衡量企业文档(图表、PDF、表格)阅读、事实抽取与事实推理能力的 OfficeQA 上达到了 Opus 4.6 水平。这对文档理解类工作负载是一次有意义的升级。

> Claude Sonnet 4.6 的性能/成本比非常惊人——近几个月 Claude 模型进化之快很难夸大。Sonnet 4.6 在我们的编排评测中表现更优,能处理最复杂的 Agent 工作负载,而且在提高 effort settings 后仍持续提升。

> Claude Sonnet 4.6 相比 Sonnet 4.5 在各方面都有显著提升,包括长周期任务和更高难度问题。

> Claude Sonnet 4.6 一上手就已在复杂代码修复上表现突出,尤其是在必须跨大型代码库搜索时。对于大规模运行 Agent 编码的团队,我们看到了很强的问题解决率和开发者所需的一致性。

> Claude Sonnet 4.6 在 bug 检测上实质性缩小了与 Opus 的差距,使我们能够并行运行更多审查器、捕获更多类型的 bug,同时不增加成本。

> Sonnet 首次以更小、更具成本效益的形态带来前沿级推理能力。如果你是重度 Opus 用户,它提供了一个可行替代方案。

> Claude Sonnet 4.6 显著提升了我们核心产品背后的答案检索能力——在我们的金融服务基准中,相比 Sonnet 4.5,答案匹配率明显上升,并且在客户依赖的特定工作流上召回更好。

> Box 评估了 Claude Sonnet 4.6 在真实企业文档上的深度推理与复杂 Agent 任务表现。结果显示其显著提升,在高强度推理问答上比 Claude Sonnet 4.5 高出 15 个百分点。

> Claude Sonnet 4.6 在我们的保险基准中达到 94%,成为我们测试过电脑操作能力最强的模型。这种准确率对于投保申请受理和首次报案等关键流程至关重要。

> Claude Sonnet 4.6 在复杂应用构建和 bug 修复上给出了前沿级结果。它正成为我们处理深度代码库任务的首选,而这些任务过去往往需要更昂贵的模型。

> Claude Sonnet 4.6 为 Rakuten AI 产出了我们测过最好的 iOS 代码:规范符合度更高、架构更优,而且一次性主动采用了我们未明确要求的现代工具链。结果让我们非常惊喜。

> Sonnet 4.6 在复杂任务推理上是一次重大跃升。我们发现它在分支型和多步骤任务上尤其强,例如合同路由、条件化模板选择和 CRM 协同——这些正是客户最需要模型判断力与可靠性的场景。

> 我们对 Claude Sonnet 4.6 处理复杂电脑操作任务的准确性印象深刻。在我们的评测中,它明显优于此前测试过的其他方案。

> Claude Sonnet 4.6 在构建前端页面和数据报告时展现了极佳的设计品味,与我们此前测试过的方案相比,几乎不需要太多“手把手”引导就能达到理想效果。

> Claude Sonnet 4.6 对指令响应非常出色——当被要求时能给出精确数字和结构化对比,同时也能在庭审策略与证据准备上提出真正有价值的想法。
01 /
15
产品更新
在 Claude Developer Platform 上,Sonnet 4.6 同时支持 [adaptive thinking](https://platform.claude.com/docs/en/build-with-claude/adaptive-thinking) 与 extended thinking,并在测试版中支持 [context compaction](https://platform.claude.com/docs/en/build-with-claude/compaction):当对话接近上下文上限时,自动总结较早内容,从而提升有效上下文长度。
在 API 侧,Claude 的 [web search](https://platform.claude.com/docs/en/agents-and-tools/tool-use/web-search-tool) 与 [fetch](https://platform.claude.com/docs/en/agents-and-tools/tool-use/web-fetch-tool) 工具现在可自动编写并执行代码,以 [过滤和处理搜索结果](https://www.claude.com/blog/improved-web-search-with-dynamic-filtering),仅保留与当前任务相关的内容进入上下文,从而同时提升回复质量与 Token 效率。此外,[code execution](https://platform.claude.com/docs/en/agents-and-tools/tool-use/code-execution-tool)、[memory](https://platform.claude.com/docs/en/agents-and-tools/tool-use/memory-tool)、[programmatic tool calling](https://platform.claude.com/docs/en/agents-and-tools/tool-use/programmatic-tool-calling)、[tool search](https://platform.claude.com/docs/en/agents-and-tools/tool-use/tool-search-tool) 和 [tool use examples](https://platform.claude.com/docs/en/agents-and-tools/tool-use/implement-tool-use#providing-tool-use-examples) 现已全面可用(GA)。
Sonnet 4.6 在各种 thinking effort 下都能保持强劲表现,即便关闭 extended thinking 也是如此。作为从 Sonnet 4.5 迁移的一部分,我们建议你在不同设置区间进行探索,依据构建目标找到速度与可靠性能之间的最佳平衡点。
我们认为,对于需要最深层推理的任务,Opus 4.6 仍是最强选择,例如代码库重构、工作流中多 Agent 协同,以及那些必须“_绝对正确_”的问题。
对于 [Claude in Excel](https://support.claude.com/en/articles/12650343-using-claude-in-excel) 用户,我们的加载项现已支持 MCP connectors,让 Claude 能与您日常使用的其他工具协同工作。
[……原文后续内容已截断……]