Copilot 代码审查突破 6000 万次,GitHub 详解 Agent 架构演进

自去年 4 月我们首次发布 Copilot code review(CCR)以来,其使用量已增长 10 倍,目前在 GitHub 上占全部代码审查的五分之一以上。
在幕后,我们一直在进行持续实验,以提升评论质量。我们还迁移到了 Agent 化架构,可检索仓库上下文并对变更进行跨文件推理。在每一步演进中,我们都在倾听你的反馈:无论是问卷结果,还是你在评论上简单的点赞/点踩,都帮助我们识别关键问题,并持续迭代 UX,提供更完整的审查体验。
Copilot code review 可以处理 pull request 审查与摘要,让团队把精力放在更复杂的任务上。
Suvarna Rane,General Motors 软件开发经理
重新定义“好的”代码审查
随着 Copilot code review 的持续演进,我们对“好的代码审查”的定义也在变化。2024 年刚开始构建时,我们的目标很简单:尽可能全面。此后我们发现,开发者真正看重的是高信号反馈——能帮助他们更快推进 pull request 的反馈。 如今,Copilot code review 结合最优模型、记忆能力与 Agent 工具调用机制,执行全面审查。为了实现这一点,我们采用了持续评估闭环来调优 Agent 的判断能力,重点围绕塑造体验的三项质量维度:准确性、信号、速度。
准确性
我们的目标是让 Copilot code review 给出可靠判断,优先识别关键逻辑与可维护性问题。我们通过两种方式评估性能:一是对已知代码问题进行内部测试,二是观察真实 pull request 的生产信号。在生产环境中,我们追踪两项关键指标:
- 开发者反馈:评论上的点赞/点踩帮助我们判断建议是否有用。
- 生产信号:我们衡量被标记问题是否在合并前得到修复。
这些信号共同确保 Copilot code review 暴露的是“真正重要的问题”,并且更快的合并来自更有把握的修复,而不是降低审查标准。

信号
在代码审查中,评论更多并不一定代表审查更好。我们的目标不是最大化评论数量,而是只暴露真正重要的问题。
一条高信号评论应当同时帮助开发者理解问题与修复方式:

沉默好过噪音。在 71% 的审查中,Copilot code review 会给出可执行反馈;在剩余 29% 的场景里,Agent 会选择不评论。
随着我们识别高信号问题的能力提升,我们也能更有信心地评论:目前平均每次审查约 5.1 条评论,同时没有增加审查往返,也没有降低质量门槛。
速度
在代码审查中,速度很重要,但信号更重要。Copilot code review 的设计目标是在 pull request 打开后不久提供可靠的首轮审查。不过,有价值的审查仍然需要分析。随着推理能力增强,要发现更深层问题所需的计算也会增加。
我们将其视为有意为之的权衡。最近一次变更中,采用更先进的推理模型后,正向反馈率提升了 6%,尽管审查延迟上升了 16%。
对我们来说,这是正确交换。相比即时但带来噪音的反馈,略慢但能发现真实问题的审查更有价值。我们会在可能范围内持续降低延迟,但绝不会以牺牲开发者可依赖的高信号发现为代价。
关于 Agent 架构
基于我们对“好审查”的新定义,我们重构了代码审查系统。如今的 Agent 化设计可智能检索上下文,并在仓库内探索,以理解逻辑、架构与特定不变量。
仅这一转变,就带来了初步 8.1% 的正向反馈提升。
原因如下:
- 边读边发现问题,而不是最后才汇总:此前 Agent 往往在审查末尾才统一输出结果,容易“遗忘”早期发现。
- 可跨审查维持记忆:现在每个 pull request 不必是孤立事件。若在代码库某处识别到某种模式,后续审查可复用该上下文。
- 通过显式计划让超长 pull request 仍可审查:Agent 可提前规划审查策略,在长而复杂、且易丢失上下文的 pull request 上显著提升表现。
- 可读取关联 issue 与 pull request:额外上下文帮助它发现细微缺口,包括那些“单看代码似乎合理、但不符合项目需求”的情况。
让审查结果更易浏览
通过迭代 Agent 与 pull request 的交互方式,我们减少了噪音,并让反馈更可执行。对你而言,这意味着:
- 通过多行评论快速理解反馈(及修复方式):我们不再把评论钉在单行代码上。通过将反馈关联到逻辑代码区间,Copilot 更容易让你看清其指向并应用建议修改。

- 保持 pull request 时间线可读:对于同一类模式错误,Agent 不再拆成多条零散评论(容易造成压迫感),而是聚合为一个连贯单元,降低认知负担。
- 用批量 autofix 一次修复整类问题:可批量应用建议修复,一次性解决整类逻辑 bug 或样式问题,而不是在十几条单独建议之间频繁切换上下文。
带走这些结论
随着 AI 持续加速软件开发,帮助团队在规模化场景下高效审查并信任代码变得前所未有地重要。Copilot code review 通过在 pull request 内直接提供高信号反馈,帮助开发者更早发现问题,并在更有信心的前提下完成合并。
目前,已有超过 12,000 家组织在每个 pull request 上自动运行 Copilot code review。在 WEX,向“默认 AI 辅助审查”转变后,Copilot 在整个工程组织内的采用实现了规模化:
如今,三分之二的开发者都在使用 Copilot——其中包括组织内最活跃的贡献者。此后,WEX 通过在所有仓库默认启用 Copilot code review 进一步扩大采用。开发者也在大量使用 agent mode 和 coding agent 提升自主性,帮助 WEX 显著提升部署效率,代码交付量提升约 30%。— WEX customer story
接下来,我们将聚焦更深度的个性化与高保真交互:让 Agent 学习你团队那些未写明的偏好,并支持双向对话,让你在合并前即可细化修复方案、探索替代路径。
随着 Copilot 能力从编码与规划延伸到审查与自动化,我们的目标很简单:在保持卓越软件所需信任与质量的同时,帮助开发者更快推进工作。
立即开始
Copilot code review 是一项高级功能,适用于 Copilot Pro、Copilot Pro+、Copilot Business 和 Copilot Enterprise。你可以参考以下资源:
已经启用 Copilot code review?可查看这些文档,在你的仓库或组织内为每个 pull request 配置自动 Copilot 代码审查。
有想法或反馈?欢迎在我们的社区讨论帖告诉我们。
标签:
作者
GitHub 产品经理
软件工程高级总监
探索更多 GitHub 内容
Docs
掌握 GitHub 所需的一切内容,集中在一个地方。
GitHub
在 GitHub 上构建下一代产品——这是一个任何人在任何地方都能构建任何东西的平台。
Customer stories
认识那些借助 GitHub 构建产品的公司与工程团队。
The GitHub Podcast
收听 GitHub Podcast,这档节目聚焦 GitHub 开源开发者社区内外的话题、趋势、故事与文化。
