S
SkillNav

Copilot 代码审查突破 6000 万次,GitHub 详解 Agent 架构演进

资讯GitHub2026-03-05T20:10:43+00:008 分钟阅读
Copilot 代码审查突破 6000 万次,GitHub 详解 Agent 架构演进

自去年 4 月我们首次发布 Copilot code review(CCR)以来,其使用量已增长 10 倍,目前在 GitHub 上占全部代码审查的五分之一以上。

在幕后,我们一直在进行持续实验,以提升评论质量。我们还迁移到了 Agent 化架构,可检索仓库上下文并对变更进行跨文件推理。在每一步演进中,我们都在倾听你的反馈:无论是问卷结果,还是你在评论上简单的点赞/点踩,都帮助我们识别关键问题,并持续迭代 UX,提供更完整的审查体验。

Copilot code review 可以处理 pull request 审查与摘要,让团队把精力放在更复杂的任务上。

Suvarna Rane,General Motors 软件开发经理

重新定义“好的”代码审查

随着 Copilot code review 的持续演进,我们对“好的代码审查”的定义也在变化。2024 年刚开始构建时,我们的目标很简单:尽可能全面。此后我们发现,开发者真正看重的是高信号反馈——能帮助他们更快推进 pull request 的反馈。 如今,Copilot code review 结合最优模型、记忆能力与 Agent 工具调用机制,执行全面审查。为了实现这一点,我们采用了持续评估闭环来调优 Agent 的判断能力,重点围绕塑造体验的三项质量维度:准确性、信号、速度。

准确性

我们的目标是让 Copilot code review 给出可靠判断,优先识别关键逻辑与可维护性问题。我们通过两种方式评估性能:一是对已知代码问题进行内部测试,二是观察真实 pull request 的生产信号。在生产环境中,我们追踪两项关键指标:

  • 开发者反馈:评论上的点赞/点踩帮助我们判断建议是否有用。
  • 生产信号:我们衡量被标记问题是否在合并前得到修复。

这些信号共同确保 Copilot code review 暴露的是“真正重要的问题”,并且更快的合并来自更有把握的修复,而不是降低审查标准。

Copilot code review comment identifying a missing dependency in a React useCallback hook and suggesting a code change to add handleKeyboardDrag to the dependency array.

信号

在代码审查中,评论更多并不一定代表审查更好。我们的目标不是最大化评论数量,而是只暴露真正重要的问题。

一条高信号评论应当同时帮助开发者理解问题与修复方式:

Copilot code review comment warning that a retry loop could run indefinitely when an API returns HTTP 429 without a Retry-After header and suggesting adding a retry limit and backoff.

沉默好过噪音。在 71% 的审查中,Copilot code review 会给出可执行反馈;在剩余 29% 的场景里,Agent 会选择不评论。

随着我们识别高信号问题的能力提升,我们也能更有信心地评论:目前平均每次审查约 5.1 条评论,同时没有增加审查往返,也没有降低质量门槛。

速度

在代码审查中,速度很重要,但信号更重要。Copilot code review 的设计目标是在 pull request 打开后不久提供可靠的首轮审查。不过,有价值的审查仍然需要分析。随着推理能力增强,要发现更深层问题所需的计算也会增加。

我们将其视为有意为之的权衡。最近一次变更中,采用更先进的推理模型后,正向反馈率提升了 6%,尽管审查延迟上升了 16%。

对我们来说,这是正确交换。相比即时但带来噪音的反馈,略慢但能发现真实问题的审查更有价值。我们会在可能范围内持续降低延迟,但绝不会以牺牲开发者可依赖的高信号发现为代价。

关于 Agent 架构

基于我们对“好审查”的新定义,我们重构了代码审查系统。如今的 Agent 化设计可智能检索上下文,并在仓库内探索,以理解逻辑、架构与特定不变量。

仅这一转变,就带来了初步 8.1% 的正向反馈提升。

原因如下:

  • 边读边发现问题,而不是最后才汇总:此前 Agent 往往在审查末尾才统一输出结果,容易“遗忘”早期发现。
  • 可跨审查维持记忆:现在每个 pull request 不必是孤立事件。若在代码库某处识别到某种模式,后续审查可复用该上下文。
  • 通过显式计划让超长 pull request 仍可审查:Agent 可提前规划审查策略,在长而复杂、且易丢失上下文的 pull request 上显著提升表现。
  • 可读取关联 issue 与 pull request:额外上下文帮助它发现细微缺口,包括那些“单看代码似乎合理、但不符合项目需求”的情况。

让审查结果更易浏览

通过迭代 Agent 与 pull request 的交互方式,我们减少了噪音,并让反馈更可执行。对你而言,这意味着:

  • 通过多行评论快速理解反馈(及修复方式):我们不再把评论钉在单行代码上。通过将反馈关联到逻辑代码区间,Copilot 更容易让你看清其指向并应用建议修改。

Copilot code review comment on a GitHub Actions workflow identifying a missing use_caches input parameter and suggesting a code change to add the boolean input to the workflow configuration.

  • 保持 pull request 时间线可读:对于同一类模式错误,Agent 不再拆成多条零散评论(容易造成压迫感),而是聚合为一个连贯单元,降低认知负担。
  • 用批量 autofix 一次修复整类问题:可批量应用建议修复,一次性解决整类逻辑 bug 或样式问题,而不是在十几条单独建议之间频繁切换上下文。

带走这些结论

随着 AI 持续加速软件开发,帮助团队在规模化场景下高效审查并信任代码变得前所未有地重要。Copilot code review 通过在 pull request 内直接提供高信号反馈,帮助开发者更早发现问题,并在更有信心的前提下完成合并。

目前,已有超过 12,000 家组织在每个 pull request 上自动运行 Copilot code review。在 WEX,向“默认 AI 辅助审查”转变后,Copilot 在整个工程组织内的采用实现了规模化:

如今,三分之二的开发者都在使用 Copilot——其中包括组织内最活跃的贡献者。此后,WEX 通过在所有仓库默认启用 Copilot code review 进一步扩大采用。开发者也在大量使用 agent mode 和 coding agent 提升自主性,帮助 WEX 显著提升部署效率,代码交付量提升约 30%。— WEX customer story

接下来,我们将聚焦更深度的个性化与高保真交互:让 Agent 学习你团队那些未写明的偏好,并支持双向对话,让你在合并前即可细化修复方案、探索替代路径。

随着 Copilot 能力从编码与规划延伸到审查与自动化,我们的目标很简单:在保持卓越软件所需信任与质量的同时,帮助开发者更快推进工作。

立即开始

Copilot code review 是一项高级功能,适用于 Copilot Pro、Copilot Pro+、Copilot Business 和 Copilot Enterprise。你可以参考以下资源:

已经启用 Copilot code review?可查看这些文档,在你的仓库或组织内为每个 pull request 配置自动 Copilot 代码审查

有想法或反馈?欢迎在我们的社区讨论帖告诉我们。


标签:

作者

Ria Gopu

GitHub 产品经理

David Apirian

软件工程高级总监

探索更多 GitHub 内容

Docs

Docs

掌握 GitHub 所需的一切内容,集中在一个地方。

Go to Docs

GitHub

GitHub

在 GitHub 上构建下一代产品——这是一个任何人在任何地方都能构建任何东西的平台。

Start building

Customer stories

Customer stories

认识那些借助 GitHub 构建产品的公司与工程团队。

Learn more

The GitHub Podcast

The GitHub Podcast

收听 GitHub Podcast,这档节目聚焦 GitHub 开源开发者社区内外的话题、趋势、故事与文化。

Listen now

查看原文 ↗

相关文章

资讯Simon Willison·3月6日
Clinejection 攻击披露:仅靠 Issue 分诊提示词即可攻陷 Cline 生产发布流程

研究者 Adnan Khan 披露了一条针对 Cline GitHub 仓库的完整攻击链:攻击者先通过 Issue 标题中的 prompt injection 控制 AI 分诊流程,再借助 GitHub Actions 缓存投毒影响夜间发布任务。尽管分诊工作流本身不含高价值密钥,但因与发布工作流共享缓存键,最终仍导致 NPM 发布凭据可被窃取。事件后 `cline@2.3.0` 曾被匿名攻击者发布(现已撤回),所幸未造成更严重后果。

3 分钟
Ask a Techspert:AI 如何理解我的视觉搜索?
资讯Google·3月5日
Ask a Techspert:AI 如何理解我的视觉搜索?

Google 对 Circle to Search 和 Lens 进行了重要升级,可在一张图片中同时识别并搜索多个对象,不再局限于“每次搜一个”。在 AI Mode 中,Gemini 会结合图像与问题进行多对象推理,并通过 fan-out 方法并发发起多次搜索,整合成一条易读答案。该能力不仅适用于购物,还可用于博物馆导览、食物识别等场景,帮助用户从“识别单个物体”迈向“理解整个场景”。

5 分钟