Anthropic 推出 Claude Code 多智能体代码审查工具

指南The New Stack2026年3月9日3 分钟阅读
Anthropic 推出 Claude Code 多智能体代码审查工具
AI 编程工具让 PR 数量激增,代码审查成了团队瓶颈。Anthropic 在 Claude Code 中推出 Code Review,用并行工作的智能体在人类审查前捕捉逻辑错误。

Claude Code、Codex、Cursor 这些智能体编程工具让开发者提交的代码量前所未有地增长,但这也意味着需要审查的代码更多了。对很多团队来说,代码审查成了主要瓶颈。为了解决这个问题,Anthropic 本周一在 Claude Code 中推出了 Code Review,这是一个新的多智能体系统,旨在人类审查者看到代码之前就捕捉到错误。

Code Review 现已面向 Claude Teams 和 Enterprise 用户在 Claude Code 网页界面提供,管理员可以按仓库启用此功能。启用后,每当有 PR 被创建,它就会在云端运行。

Anthropic 此前已经在 GitHub Actions 中提供了代码审查功能。但公司指出,“这是一个比我们现有的开源 GitHub Action 代码审查更彻底(也更昂贵)的选项,后者仍然开源可用。”

Anthropic Claude Code 产品负责人 Cat Wu 强调了代码审查自动化的必要性:“随着人们采用 Claude Code,我们注意到他们提交的 PR 比以前多得多。这往往意味着负担转移到了代码审查者身上,因为一个工程师、一个提示就能生成一个看起来合理的 PR。然后审查者需要花大量时间验证所有边界情况。”

并行工作的代码审查智能体群

实际上,Code Review 会派遣一组并行工作的智能体,每个智能体查找不同类型的错误。完成后,它们会留下评论总结结论,如果发现问题,还会建议解决方案。不过,智能体不会批准任何 PR,这仍然是人类工程师的决定。

这些智能体的重点是逻辑错误,这是一个深思熟虑的选择。Wu 解释说,这是为了减少误报。“很多时候人类代码审查时,你会看到逻辑错误,但也会看到一堆样式错误。我们发现,在 AI 生成的审查中,人们一开始真正想要的只是逻辑错误——所以这是这里的核心重点。人们对误报非常敏感,因此如果我们只关注逻辑错误,只关注代码中的实际错误,那么误报率就很低,因为一旦你知道有错误,几乎肯定应该修复它。”

Anthropic 如何使用 Code Review

Anthropic 内部一直在使用类似的系统,Wu 表示,现在 Anthropic 的开发者期望在他们的 PR 上看到 Code Review 的评论,“如果没有看到,会有点紧张。”

在 Anthropic 内部,公司现在几乎对每个 PR 都运行 Code Review。在使用之前,16% 的 PR 获得了实质性审查评论,现在这个数字是 54%。对于更改超过 1000 行的大型 PR,系统会在 84% 的情况下发现错误,平均每个 PR 有 7.5 个问题。

误报数量,至少在 Anthropic 代码库上运行的智能体中,仍然很低,开发者标记为不正确的不到 1%。

慢而稳

不过,这些智能体确实需要时间。Anthropic 表示,平均审查时间约为 20 分钟,但时间会随着 PR 的复杂性而增加。简单的 PR 会得到公司所谓的“轻量级检查”,而更复杂的 PR 会启用更多智能体并进行更深入的读取。

正如 Wu 指出的,智能体通常会考虑整个代码库,以确保一个文件的更改不会因为几个文件以意外方式交互而产生新的错误。“我们为用户做出的权衡是,我们希望这极其智能、极其彻底,但目前实现这一目标的方法是运行时间比其他代码审查工具长一点。但你得到的是更健壮的输出。而且,每个智能体不仅仅看你更改的代码,它可以灵活地遍历整个代码库。”

代码审查按 token 使用量计费,考虑到智能体深入挖掘代码的程度,费用可能累积。Anthropic 表示,一次审查平均成本通常在 15 到 25 美元之间。管理员可以设置每月上限,并获取分析仪表板来跟踪有多少 PR 被审查和接受——以及所有费用。

本地审查?

目前,此工具仅在创建 PR 时运行,但 Wu 指出,“有大量需求希望在本地运行”,在开发者的内部循环中。“我认为这是产品市场契合度最强的迹象,因为这意味着人们主动寻求这个。这不是强加给他们的自动化。他们看到了它的价值,并希望用它来双重检查他们的工作。”

如果 Anthropic 很快也让开发者在本地运行这个工具,不要感到惊讶。

安全漏洞怎么办?

就在几周前,Anthropic 还推出了 Claude Code Security,它可以扫描整个代码库以查找安全漏洞。Code Review 专注于逻辑错误,而 Claude Code Security 则完全专注于提供持续运行的深度安全扫描。如果 Code Review 检测到安全问题,它会标记出来,“但不如 Claude Code Security 彻底,”Wu 说。

可用性

Code Review 现已可供管理员为 Teams 和 Enterprise 用户启用。Wu 表示,如果有需求,Anthropic 可能会将其扩展到其他用户层级。

本文编译自 Anthropic launches a multi-agent code review tool for Claude Code,版权归原作者所有。

觉得有用?分享给更多人

获取每周 AI 工具精选

工具推荐、实战教程和生态洞察,每周更新。

相关文章

pgEdge 推出开源 MCP Server for Postgres,支持 AI 智能体通过模型上下文协议(MCP)而非传统 API 方式访问数据库。服务强调数据源无关性、完整模式自省和 token 优化,适用于 Claude Code、Cursor 等主流 AI 开发工具。

指南The New Stack·4月2日·4 分钟

Google 推出 Flex 和 Priority 两个新的推理层级,帮助开发者平衡成本与可靠性。Flex 是成本优化层级,适合后台任务,价格便宜一半;Priority 是最高保障层级,适合用户交互型应用。两者都通过同步接口调用,简化了架构管理。

指南·4月2日·3 分钟

评论