微软 Copilot 让 Claude 与 GPT 协同工作

深度The New Stack2026年3月30日3 分钟阅读
微软 Copilot 让 Claude 与 GPT 协同工作
微软在 Copilot 中引入 Claude 和 GPT 的协同工作流,让 GPT 起草内容,Claude 审核准确性。这种多模型组合在基准测试中得分超过任一单独模型。

微软的 AI 策略,很大程度上依赖于第三方大语言模型(LLM)。早期主要用 OpenAI 的 GPT 模型,最近也开始整合 Anthropic 的 Claude。现在,微软正让这两个模型协同工作,来提升 Copilot 的研究员智能体

研究员智能体适用于需要深度推理或多源问题解决的场景,现在新增了一个可选的‘审阅’功能。启用后,GPT 会负责起草内容,然后由 Claude 进行审核。微软在公告中提到,Claude 的审核会检查“准确性、完整性和引用完整性”。

未来,微软可能还会让用户切换这个流程,变成 Claude 起草、GPT 审核。

Claude 和 GPT:组合起来更好用?

这种工作流初看可能有点拼凑感,但其实和开发者有时用一个模型写代码、用另一个不同家族的模型做代码审查的做法类似。

至少在微软的基准测试中,这种方法显示出明显优势。使用 Perplexity 的 深度研究 DRACO 基准,Anthropic 的 Claude Opus 4.6 单独得分 42.7,在 Perplexity 的深度研究模式下得分 50.4。而开启审阅功能的 Copilot 研究员智能体得分 57.4,高于任何单个模型。

图片来源:微软。

可惜,我们还没有 OpenAI GPT-5.4 的基准数据,但它的得分很可能和 Opus 4.6 在同一范围。

Copilot 研究功能的另一个新特性是所谓的‘委员会’模式,允许用户并排比较不同模型如何处理同一个查询。

Cowork 现已加入 M365 Frontier 计划

最近,微软还宣布将把 Anthropic 的 Claude Cowork 工具——本质上是为需要长流程智能体完成多步骤工作流的知识工作者准备的 Claude Code——引入 Copilot。

这个功能被命名为 Copilot Cowork,现已加入早期访问的 Microsoft 365 Frontier 计划

图片来源:微软。

微软的优势在于,很多客户如果要把数据上传到 Anthropic 才能用 Cowork,他们会担心数据安全。但这些公司已经在用 Microsoft 365,而 Copilot Cowork 的数据控制在客户自己手中(Cowork 运行在沙盒化的云环境里),这让他们能安心使用这些新工具。

“这不仅仅是生成内容或答案。它关乎采取实际行动——连接步骤、协调任务,并在日常工作流中跟进执行,”Capital Group 企业技术高级副总裁 Barton Warner 说,“因为 Cowork 在我们的企业数据上运行,且在我们的安全和风险边界内,我们可以放心地实验、学习和扩展。这让我们能更快行动,把 AI 聚焦在真正能创造价值的地方。”

微软为什么这么做?

相关阅读:

“Anthropic 和 OpenAI 在企业端快速增长,而谷歌的计算资源危机对这样规模的公司来说是个尴尬;没有需求,你不会陷入计算危机。”

→ 在《谨慎乐观》中阅读更多

引入 Anthropic 来推出 Cowork 和审阅这类功能,确实反映了微软当前的处境:它正在摆脱早期对 OpenAI 的依赖,实现多元化,但这样做也加深了与另一家模型提供商的关系。

对于花高价购买 Copilot 的客户来说,他们心里肯定有个疑问:使用微软服务的价值,到底在于它编排的模型,还是在于让这些模型真正有用的企业数据和信任层?

微软显然押注后者。而对 Anthropic 来说,这次合作是其成为企业 AI 供应商的又一步棋。

微软首次宣布 Cowork 时,其业务应用和智能体总裁 Charles Lamanna 指出,“正是这种多模型优势让 Copilot 与众不同。”如果微软有自己的前沿模型,它可能会采取不同策略,但就目前情况看,这是它能采取的最佳方式。

热门故事

Group Created with Sketch.

觉得有用?分享给更多人

获取每周 AI 工具精选

工具推荐、实战教程和生态洞察,每周更新。

相关文章

Simon Willison 正在重构 LLM Python 库的抽象层,以支持服务器端工具执行等新功能。他利用 Claude Code 分析了四大 LLM 提供商的客户端库,生成了用于测试的 curl 命令和 JSON 输出。这些调研材料已开源,旨在帮助设计更通用的 API 抽象。

深度Simon Willison·4月5日·1 分钟

智能体技能——包含程序性知识和可执行资源的结构化包,供智能体在推理时动态加载——已成为增强 LLM 智能体的可靠机制。然而,推理时技能增强存在根本性限制:检索噪声引入无关指导,注入的技能内容带来大量 token 开销,而模型从未真正习得它所遵循的知识。我们提出一个问题:技能是否可以被内化到模型参数中,使其在无需任何运行时技能检索的情况下实现零样本自主行为?我们提出 Skill0,一个专为技能内化设计的上下文强化学习框架。Skill0 引入了一种训练时课程,从提供完整技能上下文开始,逐步撤除。技能按类别离线分组,并与交互历史一起渲染为紧凑的视觉上下文,教授模型工具调用和多轮任务完成。动态课程机制…

深度·4月5日·17 分钟

评论