开源模型在智能体任务上已追平闭源模型

深度LangChain2026年4月2日5 分钟阅读
开源模型在智能体任务上已追平闭源模型
GLM-5 和 MiniMax M2.7 等开源模型在文件操作、工具调用和指令遵循等核心智能体任务上,表现已与闭源前沿模型相当,但成本和延迟却低得多。Deep Agents 的评估数据显示,开源模型现在为生产部署提供了可行的选择。

过去几周,我们通过 Deep Agents 执行框架(Harness)对开源权重的大语言模型进行了评估,初步结果显示,它们已经可以替代或与闭源前沿模型并肩使用。GLM-5 和 MiniMax M2.7 在文件操作、工具调用和指令遵循等核心智能体任务上,得分与闭源模型相似。

如果你一直关注 SWE-Rebench 和 Terminal Bench 2.0 等开源基准测试,这个结果并不意外。工具调用可靠,指令遵循一致。对于在生产中部署智能体的开发者来说,开源模型现在提供的稳定性和可预测性,让实际工作流变得更加可行。

为什么选择开源模型

探索开源模型时,构建者和客户通常会关注几个关键因素:成本、延迟任务性能

理想情况下,我们希望为每个任务都使用最智能的前沿模型进行最高级别的推理。但实际上,成本和延迟这两个约束让这变得不切实际。对于高吞吐量工作负载,闭源前沿模型的成本可能高出 8-10 倍,而且对于交互式产品中用户期望的响应时间来说,它们往往太慢了。

模型类型输入($/M tokens)输出($/M tokens)
Claude Opus 4.6 (Anthropic)闭源$5.00$25.00
Claude Sonnet 4.6 (Anthropic)闭源$3.00$15.00
GPT-5.4 (OpenAI)闭源$2.50$15.00
GLM-5 (Baseten)开源$0.95$3.15
MiniMax M2.7 (OpenRouter)开源$0.30$1.20

举个例子:一个每天输出 1000 万 token 的应用,在 Opus 4.6 上每天成本约 250 美元,而在 MiniMax M2.7 上仅需约 12 美元。这相当于每年相差约 8.7 万美元。

开源模型通常比闭源前沿模型小,并且可以在专门的推理基础设施上加速——像 Groq、Fireworks 和 Baseten 这样的提供商在延迟和吞吐量方面的优化,远超大多数团队自己能达到的水平。OpenRouter 数据显示,Baseten 上的 GLM-5 平均延迟为 0.65 秒,每秒输出 70 个 token,而 Claude Opus 4.6 为 2.56 秒和 34 个 token/秒。对于延迟敏感的产品,这个差距很难通过工程手段弥补。

我们的评估方法

我们在《How we build evals for Deep Agents》一文中详细介绍了评估方法。我们使用托管推理提供商运行评估,但 Deep Agents 也可以通过 Ollama、vLLM 等工具使用完全本地和私有的模型运行。

对于开源模型,我们运行了七个评估类别:文件操作、工具调用、检索、对话、记忆、摘要和“单元测试”。这些涵盖了测试基础能力的任务:模型能否可靠地调用工具、遵循结构化指令、操作文件?这些能力决定了模型是否能在智能体执行框架(Harness)中使用。

每个评估案例都定义了成功断言(决定正确性的硬性检查)和效率断言(衡量模型如何达到目标的软性检查)。我们报告四个指标:

  • 正确性 — 模型解决的测试比例:passed / total。得分 0.68 意味着 68% 的测试用例被正确解决。这是主要的质量信号。
  • 解决率 — 准确性和速度的综合衡量。对于每个测试,我们计算 expected_steps / wall_clock_seconds;失败的测试贡献为零。最终得分是所有测试的平均值。越高越好——既能正确又能快速解决任务的模型得分最高。
  • 步骤比 — 模型实际采取的智能体步骤数与预期步骤数之比,跨所有测试汇总:total_actual_steps / total_expected_steps。值为 1.0 意味着模型使用了预期的步骤数。高于 1.0 意味着需要更多步骤(效率较低);低于 1.0 意味着需要的步骤比最初预期的少。
  • 工具调用比 — 与步骤比概念相同,但计算的是单个工具调用而不是步骤。1.0 是按预算,高于是超预算,低于是低于预算。

步骤比和工具调用比是效率指标。它们不影响测试是否通过,但揭示了模型达到答案的经济性。一个用 2 步而不是预期的 5 步解决任务的模型,既正确又高效。

评估结果

这些是早期结果;我们正在积极维护和扩展我们的评估集。你可以实时查看最近的运行结果,包括我们的 GitHub 仓库这个共享的 LangSmith 项目

开源模型

查看 CI 运行(点击模型名称查看单个评估)

模型正确性通过数解决率步骤比工具调用比
baseten:zai-org/GLM-50.6494 of 1381.171.021.06
ollama:minimax-m2.70.5785 of 1380.271.021.04

按类别正确性:

模型对话文件操作记忆检索摘要工具调用单元测试
baseten:zai-org/GLM-50.3810.4410.60.821
ollama:minimax-m2.7:cloud0.140.920.380.80.60.870.92

前沿模型

查看 CI 运行(点击模型名称查看单个评估)

模型正确性通过数解决率步骤比工具调用比
anthropic:claude-opus-4-60.68100 of 1380.380.991.02
google_genai:gemini-3.1-pro-preview0.6596 of 1380.260.991.01
openai:gpt-5.40.6191 of 1380.611.051.15

按类别正确性:

模型对话文件操作记忆检索摘要工具调用单元测试
anthropic:claude-opus-4-60.0510.67110.871
google_genai:gemini-3.1-pro-preview0.240.920.6210.80.790.92
openai:gpt-5.40.2910.4410.80.761

对于每个模型,我们选择使用提供商的默认思考级别。
对于 Gemini 3+,这是 high
对于 OpenAI,这是 medium
对于 Claude,这是没有扩展思考的版本

自己动手:本地运行 Deep Agent 评估

我们的 CI 在 52 个模型组成的组中运行相同的评估套件——包括一个 open 组(baseten:zai-org/GLM-5ollama:minimax-m2.7:cloudollama:nemotron-3-super),它在每个评估工作流中运行。你可以针对任何模型组:

运行针对所有开源模型的评估:pytest tests/evals --model-group open
运行针对特定模型的评估:pytest tests/evals --model baseten:zai-org/GLM-5

这使得在同一任务上、使用相同的评分标准,比较开源模型之间以及开源模型与闭源前沿模型变得简单直接。

在 Deep Agents SDK 中使用开源模型

切换到开源模型只需一行代码:

GLM-5:

code
# pip install langchain-baseten
from deepagents import create_deep_agent

agent = create_deep_agent(model="baseten:zai-org/GLM-5")

MiniMax M2.7:

code
# pip install langchain-openrouter
from deepagents import create_deep_agent

agent = create_deep_agent(model="openrouter:minimax/minimax-m2.7")

就这样。执行框架(Harness)会处理其余的事情——它检测模型的上下文窗口大小,禁用不支持的模式,并将正确的身份注入系统提示中,以便智能体知道自己在处理什么。

同一个开源模型通常可以通过多个提供商获得。选择符合你约束条件的那个。例如,GLM-5 可以作为 baseten:zai-org/GLM-5fireworks:fireworks/glm-5 或用于自托管的 ollama:glm-5 使用。相同的模型,相同的执行框架,不同的基础设施。

LangChain 为最流行的开源模型提供商提供支持。我们为此版本测试的提供商包括:Baseten、Fireworks、Groq、OpenRouter 和 Ollama(云)。

为你的模型调整执行框架级别

开源模型与闭源前沿模型有不同的上下文窗口、不同的工具调用格式和不同的失败模式。Deep Agents 执行框架吸收了这些差异,所以你不需要处理:

  • 模型身份注入 — 系统提示在运行时被修补,包含模型的名称、提供商、上下文限制和支持的模式。智能体知道它是什么以及它能做什么。
  • 上下文管理 — 压缩、卸载和摘要阈值会根据模型的实际上下文窗口进行调整,而不是硬编码的默认值。一个拥有 4K 上下文的模型会比拥有 1M 上下文的 Opus 获得更积极的压缩。

Deep Agents CLI

每个模型也可以在 Deep Agents CLI 中使用。Deep Agents CLI 是我们的开源编码智能体,也是 Claude Code 的替代品。

除了 Deep Agents SDK 中的所有功能外,CLI 还支持运行时模型切换。我们引入了一个新的中间件(ConfigurableModelMiddleware)来实现在不重启智能体的情况下在会话中切换模型。这使得像使用前沿模型进行规划,然后切换到更便宜的开源模型进行执行的模式成为可能。

你可以使用 /model 斜杠命令在会话中切换模型。这使得像使用前沿模型开始任务进行规划,然后切换到更便宜的开源模型进行执行的模式成为可能。

0:00

/0:50

下一步计划

我们期待很快分享的一些事情:

  • 记录针对特定开源模型系列的执行框架调优模式
  • 测试多模型子智能体配置(例如:前沿闭源模型编排器 + 开源模型子智能体)

开源模型现在就可以用于智能体。我们想展示帮助我们设计良好执行框架的设计模式,并构建有针对性的评估来衡量对你的任务重要的指标。

Deep Agents 是开源的。用你喜欢的开源模型试试,和我们一起构建出色的评估和智能体。

本文编译自 Open Models have crossed a threshold,版权归原作者所有。

觉得有用?分享给更多人

获取每周 AI 工具精选

工具推荐、实战教程和生态洞察,每周更新。

相关文章

Simon Willison 正在重构 LLM Python 库的抽象层,以支持服务器端工具执行等新功能。他利用 Claude Code 分析了四大 LLM 提供商的客户端库,生成了用于测试的 curl 命令和 JSON 输出。这些调研材料已开源,旨在帮助设计更通用的 API 抽象。

深度Simon Willison·4月5日·1 分钟

智能体技能——包含程序性知识和可执行资源的结构化包,供智能体在推理时动态加载——已成为增强 LLM 智能体的可靠机制。然而,推理时技能增强存在根本性限制:检索噪声引入无关指导,注入的技能内容带来大量 token 开销,而模型从未真正习得它所遵循的知识。我们提出一个问题:技能是否可以被内化到模型参数中,使其在无需任何运行时技能检索的情况下实现零样本自主行为?我们提出 Skill0,一个专为技能内化设计的上下文强化学习框架。Skill0 引入了一种训练时课程,从提供完整技能上下文开始,逐步撤除。技能按类别离线分组,并与交互历史一起渲染为紧凑的视觉上下文,教授模型工具调用和多轮任务完成。动态课程机制…

深度·4月5日·17 分钟

评论