Claude Opus 4.6 发布:智能体编程与工作流全面升级

指南Anthropic2026年2月5日3 分钟阅读
Claude Opus 4.6 发布:智能体编程与工作流全面升级
Anthropic 发布 Claude Opus 4.6,在智能体编码、工具调用、金融分析等多项评测中领先行业。新模型支持 100 万 token 上下文窗口(测试版),并引入智能体团队、上下文压缩等开发者功能。

我们正在升级我们最智能的模型。

全新的 Claude Opus 4.6 在编码技能上超越了前代。它规划更谨慎,能维持更长时间的智能体任务,在大型代码库中运行更可靠,并且拥有更好的代码审查和调试能力来捕捉自己的错误。此外,作为我们 Opus 级模型的首创,Opus 4.6 在测试版中提供了 100 万 token 的上下文窗口。

Opus 4.6 还能将其提升的能力应用于一系列日常工作:运行财务分析、进行研究、使用和创建文档、电子表格和演示文稿。在 Cowork 中,Claude 可以自主多任务处理,Opus 4.6 能代表你将所有这些技能付诸实践。

该模型在多项评估中达到了最先进的性能。例如,它在智能体编码评估 Terminal-Bench 2.0 上获得了最高分,并在复杂的多学科推理测试 Humanity's Last Exam 上领先所有其他前沿模型。在 GDPval-AA 上——一项评估在金融、法律等领域经济价值知识工作任务表现的测试——Opus 4.6 比行业次优模型(OpenAI 的 GPT-5.2)高出约 144 Elo 分,比其前代(Claude Opus 4.5)高出 190 分。Opus 4.6 在 BrowseComp 上也优于任何其他模型,该测试衡量模型在线查找难以获取信息的能力。

正如我们在详细的 系统卡 中所展示的,Opus 4.6 的整体安全性与行业任何其他前沿模型相当或更优,在安全评估中表现出较低的错误行为率。

Claude Code 中,你现在可以组建 智能体团队 来协同处理任务。在 API 上,Claude 可以使用 压缩 来总结自己的上下文,执行更长时间的任务而不会触及限制。我们还引入了 自适应思考,模型可以根据上下文线索决定使用多少扩展思考,以及新的 努力度 控制,让开发者更好地平衡智能、速度和成本。

我们对 Claude in Excel 进行了重大升级,并发布了 Claude in PowerPoint 的研究预览版。这使得 Claude 在日常工作中更加得心应手。

Claude Opus 4.6 现已上线 claude.ai、我们的 API 以及所有主要云平台。如果你是开发者,可以通过 Claude API 使用 claude-opus-4-6。定价保持不变,为每百万 token 5/25 美元;完整详情请参阅我们的 定价页面

我们将在下文深入介绍该模型、我们的新产品更新、评估以及广泛的安全测试。

初体验

我们就是用 Claude 来构建 Claude 的。工程师们每天用 Claude Code 写代码,每个新模型发布前,都会先在我们自己的工作中进行测试。Opus 4.6 给我们的感觉是,它能在不被明确告知的情况下,更专注于任务中最具挑战性的部分,快速处理常规部分,对模糊问题做出更好的判断,并且在长时间会话中保持高效。

Opus 4.6 往往思考得更深入,在给出最终答案前会更仔细地回顾自己的推理过程。这让它在处理难题时表现更好,但在简单任务上可能会增加成本和延迟。如果你发现模型在某个任务上“想太多”了,我们建议将 /effort 参数 从默认的“高”调至“中”。

以下是我们的早期体验合作伙伴对 Claude Opus 4.6 的一些评价,涉及它的自主工作能力、在以往模型失败场景中的成功表现,以及对团队协作方式的影响:

Notion logo

Claude Opus 4.6 是 Anthropic 发布过的最强模型。它能理解复杂的请求并真正执行下去,将其分解为具体步骤、执行,并产出高质量的工作成果,即使任务极具挑战性。对于 Notion 用户来说,它感觉不像一个工具,更像一个能干的协作者。

GitHub logo

早期测试表明,Claude Opus 4.6 在处理开发者每天面临的复杂、多步骤编码工作方面表现出色——尤其是那些需要规划和工具调用(Tool Use)的智能体(Agent)工作流。这为处理前沿的长周期任务打开了大门。

Replit logo

Claude Opus 4.6 在智能体规划(Agentic Planning)方面是一次巨大飞跃。它能将复杂任务分解为独立的子任务,并行运行工具和子智能体,并能非常精准地识别阻塞点。

Asana logo

Claude Opus 4.6 是我们测试过的最佳模型。它的推理和规划能力在驱动我们的 AI Teammates 方面表现卓越。它也是一个出色的编码模型——它驾驭大型代码库并识别正确修改点的能力处于业界领先水平。

Cognition logo

Claude Opus 4.6 在复杂问题上的推理能力达到了我们前所未见的水平。它会考虑其他模型会忽略的边缘情况,并始终能得出更优雅、更周全的解决方案。我们对 Opus 4.6 在 Devin Review 中的表现尤其印象深刻,它提高了我们的 bug 检出率。

Windsurf logo

在 Windsurf 中,Claude Opus 4.6 感觉明显优于 Opus 4.5,尤其是在需要仔细探索的任务上,比如调试和理解陌生的代码库。我们注意到 Opus 4.6 思考时间更长,这在需要深度推理时会带来回报。

Thomson Reuters logo

Claude Opus 4.6 在长上下文(Long-Context)性能上实现了有意义的飞跃。在我们的测试中,我们看到它处理更大体量信息时的一致性水平有所提升,这强化了我们设计和部署复杂研究工作流的方式。这方面的进步为我们提供了更强大的构建模块,以交付专业人士可以信赖的真正专家级系统。

NBIM logo

在 40 次网络安全调查中,Claude Opus 4.6 在与 Claude 4.5 系列模型的盲测排名中,有 38 次都取得了最佳结果。每个模型都在相同的智能体执行框架(Harness)上端到端运行,最多使用 9 个子智能体和 100 多次工具调用。

Cursor logo

从我们的内部基准测试来看,Claude Opus 4.6 是处理长周期任务的新前沿。它在代码审查方面也非常有效。

Harvey logo

Claude Opus 4.6 在 BigLaw Bench 上取得了所有 Claude 模型中最高的分数,达到 90.2%。其中 40% 为满分,84% 的分数高于 0.8,在法律推理方面能力出众。

Rakuten logo

Claude Opus 4.6 在一天内自主关闭了 13 个 issue,并将 12 个 issue 分配给了正确的团队成员,管理着一个横跨 6 个仓库、约 50 人的组织。它同时处理产品和组织决策,综合多个领域的上下文,并且知道何时需要将问题上报给人类。

Lovable logo

Claude Opus 4.6 在设计质量上有所提升。它与我们的设计系统配合得很好,自主性也更强,这符合 Lovable 的核心价值观。人们应该专注于创造有意义的东西,而不是去微管理 AI。

Box logo

Claude Opus 4.6 在高推理任务上表现出色,例如跨法律、金融和技术内容的多源分析。Box 的评估显示性能提升了 10%,达到 68%,而基线为 58%,在技术领域接近满分。

Figma logo

Claude Opus 4.6 在 Figma Make 中生成复杂、交互式应用和原型的能力令人印象深刻,创意范围很广。该模型能将详细的设计和多层任务一次性转化为代码,使其成为团队探索和构建想法的强大起点。

Shopify logo

Claude Opus 4.6 是我们测试过的最佳 Anthropic 模型。它只需极少提示就能理解意图,并且常常超出预期,探索并创造出一些我直到看到才意识到自己想要的细节。感觉就像是在和模型协作,而不是在等待它。

Bolt.new logo

无论是动手测试还是评估都表明,Claude Opus 4.6 在设计系统和大型代码库方面有显著改进,这些用例能带来巨大的企业价值。它还一次性生成了一个功能齐全的物理引擎,在一次处理中就完成了大型、多作用域的任务。

Ramp logo

Claude Opus 4.6 是我几个月来见过的最大飞跃。我现在更放心给它一系列跨技术栈的任务,然后让它自己去执行。它足够聪明,知道为各个部分使用子智能体。

SentinelOne logo

Claude Opus 4.6 处理一个数百万行代码的迁移项目时,表现得像一位资深工程师。它预先规划,在过程中根据学到的东西调整策略,最终只用了一半时间就完成了任务。

Vercel logo

我们只在开发者能真切感受到差异时,才会在 v0 中集成模型。Claude Opus 4.6 轻松通过了这个门槛。它的前沿推理能力,尤其是在处理边缘情况时,帮助 v0 实现了我们的首要目标:让任何人都能将想法从原型提升到产品。

Shortcut.ai logo

Claude Opus 4.6 带来的性能飞跃几乎令人难以置信。那些对 Opus 4.5 来说具有挑战性的真实世界任务,突然变得容易了。这感觉像是 Shortcut 上电子表格智能体的一个分水岭时刻。

01 / 20

评估 Claude Opus 4.6

在智能体编码、计算机使用、工具调用、搜索和金融等多个领域,Opus 4.6 都是一个行业领先的模型,通常优势明显。下表展示了 Claude Opus 4.6 与我们之前的模型以及其他行业模型在各种基准测试上的对比情况。

Benchmark table comparing Opus 4.6 to other models

Opus 4.6 在从大量文档中检索相关信息方面表现好得多。这延伸到长上下文任务,它能在数十万 token 的范围内保持并跟踪信息,减少信息漂移,并能捕捉到连 Opus 4.5 都会错过的隐藏细节。

对 AI 模型的一个常见抱怨是“上下文腐化(Context Rot)”,即当对话超过一定数量的 token 后,性能会下降。Opus 4.6 的表现明显优于其前代模型:在 MRCR v2 的 8-needle 1M 变体(一个测试模型在大量文本中检索“隐藏”信息能力的“大海捞针”基准测试)上,Opus 4.6 得分为 76%,而 Sonnet 4.5 仅为 18.5%。这是在模型实际能利用多少上下文并保持峰值性能方面的一个质的飞跃。

总而言之,Opus 4.6 更擅长在长上下文中查找信息,在吸收信息后更擅长推理,并且总体上具有显著更好的专家级推理能力。

最后,下面的图表展示了 Claude Opus 4.6 在各种基准测试上的表现,这些测试评估了它的软件工程技能、多语言编码能力、长期连贯性、网络安全能力以及生命科学知识。

安全方面的新进展

智能提升并未以牺牲安全为代价。在我们的自动化行为审计中,Opus 4.6 在欺骗、谄媚、鼓励用户妄想、配合滥用等未对齐行为上表现出较低的发生率。总体而言,它与前代模型 Claude Opus 4.5 的对齐程度相当,后者是我们迄今为止对齐度最高的前沿模型。Opus 4.6 在良性查询拒绝(模型未能回答无害查询)方面的发生率也是近期所有 Claude 模型中最低的。

对比 Opus 4.6 与其他 Claude 模型在总体未对齐行为上的条形图

各近期 Claude 模型在我们自动化行为审计中的总体未对齐行为得分(完整描述见 Claude Opus 4.6 系统卡片)。

对于 Claude Opus 4.6,我们运行了有史以来最全面的安全评估集,首次应用了许多不同的测试,并升级了之前使用的几个评估。我们新增了用户福祉评估,对模型拒绝潜在危险请求的能力进行了更复杂的测试,并更新了评估模型暗中执行有害行为的能力。我们还尝试了来自可解释性研究(探究 AI 模型内部运作的科学)的新方法,以开始理解模型为何会以特定方式行为,并最终捕捉标准测试可能遗漏的问题。

所有能力和安全评估的详细描述可在 Claude Opus 4.6 系统卡片中找到。

在 Opus 4.6 表现出可能被用于危险和有益用途的特定优势领域,我们也应用了新的安全措施。特别是,由于该模型展现出增强的网络安全能力,我们开发了六种新的网络安全探针(检测有害响应的方法),以帮助我们追踪不同形式的潜在滥用。

我们也在加速模型的网络防御用途,用它来帮助发现和修补开源软件中的漏洞(如我们在新的网络安全博客文章中所述)。我们认为,网络防御者使用像 Claude 这样的 AI 模型来帮助平衡竞争环境至关重要。网络安全发展迅速,随着我们对潜在威胁的了解加深,我们将调整和更新我们的安全措施;在不久的将来,我们可能会实施实时干预来阻止滥用。

产品和 API 更新

我们在 Claude、Claude Code 和 Claude Platform 上进行了大量更新,让 Opus 4.6 发挥最佳性能。

Claude Platform

在 API 方面,我们为开发者提供了更好的模型努力程度控制和更灵活的长时运行智能体(Agent)支持。为此,我们引入了以下功能:

  • 自适应思考(Adaptive Thinking)。之前,开发者只能在启用或禁用扩展思考之间做二选一。现在,通过自适应思考,Claude 可以自行决定何时进行更深层次的推理会有帮助。在默认努力程度(高)下,模型会在有用时使用扩展思考,但开发者可以调整努力程度,使其选择性地更强或更弱。
  • 努力程度(Effort)。现在有四个努力程度可选:低、中、高(默认)和最大。我们鼓励开发者尝试不同选项,找到最适合的方案。
  • 上下文压缩(Context Compaction,测试版)。长时对话和智能体任务经常会触及上下文窗口(Context Window)上限。上下文压缩会在对话接近可配置阈值时,自动总结并替换较旧的上下文,让 Claude 能够执行更长的任务而不会触及限制。
  • 100 万 Token 上下文(测试版)。Opus 4.6 是我们首个支持 100 万 Token 上下文的 Opus 级模型。超过 20 万 Token 的提示将适用高级定价(每百万输入/输出 Token 10/37.50 美元),目前仅在 Claude Platform 上提供。
  • 12.8 万输出 Token。Opus 4.6 支持高达 12.8 万 Token 的输出,让 Claude 能够完成更大输出的任务,而无需拆分成多个请求。
  • 仅限美国推理。对于需要在美国运行的工作负载,仅限美国推理以 1.1 倍 Token 定价提供。

产品更新

在 Claude 和 Claude Code 中,我们增加了功能,让知识工作者和开发者能够用更多日常工具处理更困难的任务。

我们在 Claude Code 中作为研究预览引入了智能体团队(Agent Teams)。你现在可以启动多个并行工作的智能体作为一个团队自主协调——最适合拆分为独立的、读取密集型工作的任务,如代码库审查。你可以使用 Shift+上/下方向键或 tmux 直接接管任何子智能体。

Claude 现在也能更好地与你已使用的办公工具协同工作。Excel 中的 Claude 以改进的性能处理长时运行和更困难的任务,并且可以行动前规划、摄取非结构化数据并在无指导的情况下推断正确结构,以及一次性处理多步骤更改。将其与 PowerPoint 中的 Claude 搭配使用,你可以先在 Excel 中处理和构建数据,然后在 PowerPoint 中将其可视化呈现。Claude 会读取你的布局、字体和幻灯片母版以保持品牌一致性,无论你是基于模板构建还是根据描述生成完整演示文稿。PowerPoint 中的 Claude 现作为研究预览提供给 Max、Team 和 Enterprise 计划用户。

脚注

[1] 100 万 Token 上下文窗口目前仅在 Claude Developer Platform 上以测试版提供。

[2] 由 Artificial Analysis 独立运行。参见此处获取完整方法论细节。

[3] 这意味着 Claude Opus 4.6 在此评估中比 GPT-5.2 获得更高分数的概率约为 70%(其中 50% 的概率表示分数持平)。

  • 对于 GPT-5.2 和 Gemini 3 Pro 模型,我们比较了图表和表格中报告的最佳模型版本。
  • Terminal-Bench 2.0:我们报告了在我们基础设施上复现的分数以及其他实验室发布的分数。除 OpenAI 的 Codex CLI 外,所有运行均使用 Terminus-2 执行框架(Harness)。所有实验均使用 1× 保证 / 3× 上限资源分配,并在交错批次中对每个任务进行 5-15 次采样。详见系统卡片。
  • Humanity’s Last Exam:运行“带工具”的 Claude 模型时,启用了网络搜索、网络获取、代码执行、程序化工具调用(Tool Use)、在 5 万 Token 处触发上下文压缩(最高 300 万总 Token)、最大推理努力程度和自适应思考。使用了域名阻止列表来净化评估结果。详见系统卡片。
  • SWE-bench Verified:我们的分数是 25 次试验的平均值。通过提示修改,我们看到了 81.42% 的分数。
  • MCP Atlas:Claude Opus 4.6 以最大努力程度运行。当以高努力程度运行时,它达到了行业领先的 62.7% 分数。
  • BrowseComp:运行 Claude 模型时,启用了网络搜索、网络获取、程序化工具调用、在 5 万 Token 处触发上下文压缩(最高 1000 万总 Token)、最大推理努力程度且未启用思考。添加多智能体执行框架(Harness)将分数提高至 86.8%。详见系统卡片。
  • ARC AGI 2:Claude Opus 4.6 以最大努力程度和 12 万思考预算分数运行。
  • CyberGym:Claude 模型在无思考、默认努力程度、温度和 top_p 下运行。模型还被赋予了一个“思考”工具,允许在多轮评估中进行交错思考。
  • OpenRCA:对于 OpenRCA 中的每个故障案例,如果所有生成的根因元素都与真实情况匹配,Claude 获得 1 分;如果存在任何不匹配,则获得 0 分。总体准确率是所有故障案例的平均分。该基准在基准作者的执行框架(Harness)上运行,使用其官方方法论评分,并已提交官方验证。

[2026 年 2 月 23 日] 更新了 Opus 4.6 在带工具的 HLE 上的报告分数(从 53.1% 更新至 53.0%)。此次更新是由于运行了改进的作弊检测流程,该流程标记出了我们原始流程遗漏的 3 个额外作弊实例。

相关内容

Anthropic 向 Claude Partner Network 投资 1 亿美元

我们正在启动 Claude Partner Network,这是一个帮助企业采用 Claude 的合作伙伴组织计划。

阅读更多

介绍 The Anthropic Institute

我们正在启动 The Anthropic Institute,这是一项新的努力,旨在应对强大 AI 将给我们的社会带来的最重大挑战。

阅读更多

悉尼将成为 Anthropic 在亚太地区的第四个办公室

阅读更多

本文编译自 Introducing Claude Opus 4.6,版权归原作者所有。

觉得有用?分享给更多人

获取每周 AI 工具精选

工具推荐、实战教程和生态洞察,每周更新。

相关文章

pgEdge 推出开源 MCP Server for Postgres,支持 AI 智能体通过模型上下文协议(MCP)而非传统 API 方式访问数据库。服务强调数据源无关性、完整模式自省和 token 优化,适用于 Claude Code、Cursor 等主流 AI 开发工具。

指南The New Stack·4月2日·4 分钟

Google 推出 Flex 和 Priority 两个新的推理层级,帮助开发者平衡成本与可靠性。Flex 是成本优化层级,适合后台任务,价格便宜一半;Priority 是最高保障层级,适合用户交互型应用。两者都通过同步接口调用,简化了架构管理。

指南·4月2日·3 分钟

评论