开源模型在智能体任务上已追平闭源模型

深度LangChain2026年4月2日5 分钟阅读

GLM-5 和 MiniMax M2.7 等开源模型在文件操作、工具调用和指令遵循等核心智能体任务上，表现已与闭源前沿模型相当，但成本和延迟却低得多。Deep Agents 的评估数据显示，开源模型现在为生产部署提供了可行的选择。

过去几周，我们通过 Deep Agents 执行框架（Harness）对开源权重的大语言模型进行了评估，初步结果显示，它们已经可以替代或与闭源前沿模型并肩使用。GLM-5 和 MiniMax M2.7 在文件操作、工具调用和指令遵循等核心智能体任务上，得分与闭源模型相似。

如果你一直关注 SWE-Rebench 和 Terminal Bench 2.0 等开源基准测试，这个结果并不意外。工具调用可靠，指令遵循一致。对于在生产中部署智能体的开发者来说，开源模型现在提供的稳定性和可预测性，让实际工作流变得更加可行。

为什么选择开源模型

探索开源模型时，构建者和客户通常会关注几个关键因素：成本、延迟和任务性能。

理想情况下，我们希望为每个任务都使用最智能的前沿模型进行最高级别的推理。但实际上，成本和延迟这两个约束让这变得不切实际。对于高吞吐量工作负载，闭源前沿模型的成本可能高出 8-10 倍，而且对于交互式产品中用户期望的响应时间来说，它们往往太慢了。

模型	类型	输入（$/M tokens）	输出（$/M tokens）
Claude Opus 4.6 (Anthropic)	闭源	$5.00	$25.00
Claude Sonnet 4.6 (Anthropic)	闭源	$3.00	$15.00
GPT-5.4 (OpenAI)	闭源	$2.50	$15.00
GLM-5 (Baseten)	开源	$0.95	$3.15
MiniMax M2.7 (OpenRouter)	开源	$0.30	$1.20

举个例子：一个每天输出 1000 万 token 的应用，在 Opus 4.6 上每天成本约 250 美元，而在 MiniMax M2.7 上仅需约 12 美元。这相当于每年相差约 8.7 万美元。

开源模型通常比闭源前沿模型小，并且可以在专门的推理基础设施上加速——像 Groq、Fireworks 和 Baseten 这样的提供商在延迟和吞吐量方面的优化，远超大多数团队自己能达到的水平。OpenRouter 数据显示，Baseten 上的 GLM-5 平均延迟为 0.65 秒，每秒输出 70 个 token，而 Claude Opus 4.6 为 2.56 秒和 34 个 token/秒。对于延迟敏感的产品，这个差距很难通过工程手段弥补。

我们的评估方法

我们在《How we build evals for Deep Agents》一文中详细介绍了评估方法。我们使用托管推理提供商运行评估，但 Deep Agents 也可以通过 Ollama、vLLM 等工具使用完全本地和私有的模型运行。

对于开源模型，我们运行了七个评估类别：文件操作、工具调用、检索、对话、记忆、摘要和“单元测试”。这些涵盖了测试基础能力的任务：模型能否可靠地调用工具、遵循结构化指令、操作文件？这些能力决定了模型是否能在智能体执行框架（Harness）中使用。

每个评估案例都定义了成功断言（决定正确性的硬性检查）和效率断言（衡量模型如何达到目标的软性检查）。我们报告四个指标：

正确性 — 模型解决的测试比例：passed / total。得分 0.68 意味着 68% 的测试用例被正确解决。这是主要的质量信号。
解决率 — 准确性和速度的综合衡量。对于每个测试，我们计算 expected_steps / wall_clock_seconds；失败的测试贡献为零。最终得分是所有测试的平均值。越高越好——既能正确又能快速解决任务的模型得分最高。
步骤比 — 模型实际采取的智能体步骤数与预期步骤数之比，跨所有测试汇总：total_actual_steps / total_expected_steps。值为 1.0 意味着模型使用了预期的步骤数。高于 1.0 意味着需要更多步骤（效率较低）；低于 1.0 意味着需要的步骤比最初预期的少。
工具调用比 — 与步骤比概念相同，但计算的是单个工具调用而不是步骤。1.0 是按预算，高于是超预算，低于是低于预算。

步骤比和工具调用比是效率指标。它们不影响测试是否通过，但揭示了模型达到答案的经济性。一个用 2 步而不是预期的 5 步解决任务的模型，既正确又高效。

评估结果

这些是早期结果；我们正在积极维护和扩展我们的评估集。你可以实时查看最近的运行结果，包括我们的 GitHub 仓库和这个共享的 LangSmith 项目。

开源模型

查看 CI 运行（点击模型名称查看单个评估）

模型	正确性	通过数	解决率	步骤比	工具调用比
baseten:zai-org/GLM-5	0.64	94 of 138	1.17	1.02	1.06
ollama:minimax-m2.7	0.57	85 of 138	0.27	1.02	1.04

按类别正确性：

模型	对话	文件操作	记忆	检索	摘要	工具调用	单元测试
baseten:zai-org/GLM-5	0.38	1	0.44	1	0.6	0.82	1
ollama:minimax-m2.7:cloud	0.14	0.92	0.38	0.8	0.6	0.87	0.92

前沿模型

查看 CI 运行（点击模型名称查看单个评估）

模型	正确性	通过数	解决率	步骤比	工具调用比
anthropic:claude-opus-4-6	0.68	100 of 138	0.38	0.99	1.02
google_genai:gemini-3.1-pro-preview	0.65	96 of 138	0.26	0.99	1.01
openai:gpt-5.4	0.61	91 of 138	0.61	1.05	1.15

按类别正确性：

模型	对话	文件操作	记忆	检索	摘要	工具调用	单元测试
anthropic:claude-opus-4-6	0.05	1	0.67	1	1	0.87	1
google_genai:gemini-3.1-pro-preview	0.24	0.92	0.62	1	0.8	0.79	0.92
openai:gpt-5.4	0.29	1	0.44	1	0.8	0.76	1

对于每个模型，我们选择使用提供商的默认思考级别。
对于 Gemini 3+，这是 high
对于 OpenAI，这是 medium
对于 Claude，这是没有扩展思考的版本

自己动手：本地运行 Deep Agent 评估

我们的 CI 在 52 个模型组成的组中运行相同的评估套件——包括一个 open 组（baseten:zai-org/GLM-5、ollama:minimax-m2.7:cloud、ollama:nemotron-3-super），它在每个评估工作流中运行。你可以针对任何模型组：

运行针对所有开源模型的评估：pytest tests/evals --model-group open
运行针对特定模型的评估：pytest tests/evals --model baseten:zai-org/GLM-5

这使得在同一任务上、使用相同的评分标准，比较开源模型之间以及开源模型与闭源前沿模型变得简单直接。

在 Deep Agents SDK 中使用开源模型

切换到开源模型只需一行代码：

GLM-5：

code

# pip install langchain-baseten
from deepagents import create_deep_agent

agent = create_deep_agent(model="baseten:zai-org/GLM-5")

MiniMax M2.7：

code

# pip install langchain-openrouter
from deepagents import create_deep_agent

agent = create_deep_agent(model="openrouter:minimax/minimax-m2.7")

就这样。执行框架（Harness）会处理其余的事情——它检测模型的上下文窗口大小，禁用不支持的模式，并将正确的身份注入系统提示中，以便智能体知道自己在处理什么。

同一个开源模型通常可以通过多个提供商获得。选择符合你约束条件的那个。例如，GLM-5 可以作为 baseten:zai-org/GLM-5、fireworks:fireworks/glm-5 或用于自托管的 ollama:glm-5 使用。相同的模型，相同的执行框架，不同的基础设施。

LangChain 为最流行的开源模型提供商提供支持。我们为此版本测试的提供商包括：Baseten、Fireworks、Groq、OpenRouter 和 Ollama（云）。

为你的模型调整执行框架级别

开源模型与闭源前沿模型有不同的上下文窗口、不同的工具调用格式和不同的失败模式。Deep Agents 执行框架吸收了这些差异，所以你不需要处理：

模型身份注入 — 系统提示在运行时被修补，包含模型的名称、提供商、上下文限制和支持的模式。智能体知道它是什么以及它能做什么。
上下文管理 — 压缩、卸载和摘要阈值会根据模型的实际上下文窗口进行调整，而不是硬编码的默认值。一个拥有 4K 上下文的模型会比拥有 1M 上下文的 Opus 获得更积极的压缩。

Deep Agents CLI

每个模型也可以在 Deep Agents CLI 中使用。Deep Agents CLI 是我们的开源编码智能体，也是 Claude Code 的替代品。

除了 Deep Agents SDK 中的所有功能外，CLI 还支持运行时模型切换。我们引入了一个新的中间件（ConfigurableModelMiddleware）来实现在不重启智能体的情况下在会话中切换模型。这使得像使用前沿模型进行规划，然后切换到更便宜的开源模型进行执行的模式成为可能。

你可以使用 /model 斜杠命令在会话中切换模型。这使得像使用前沿模型开始任务进行规划，然后切换到更便宜的开源模型进行执行的模式成为可能。

0:00

/0:50

下一步计划

我们期待很快分享的一些事情：

记录针对特定开源模型系列的执行框架调优模式
测试多模型子智能体配置（例如：前沿闭源模型编排器 + 开源模型子智能体）

开源模型现在就可以用于智能体。我们想展示帮助我们设计良好执行框架的设计模式，并构建有针对性的评估来衡量对你的任务重要的指标。

Deep Agents 是开源的。用你喜欢的开源模型试试，和我们一起构建出色的评估和智能体。

为什么选择开源模型

探索开源模型时，构建者和客户通常会关注几个关键因素：成本、延迟和任务性能。

模型	类型	输入（$/M tokens）	输出（$/M tokens）
Claude Opus 4.6 (Anthropic)	闭源	$5.00	$25.00
Claude Sonnet 4.6 (Anthropic)	闭源	$3.00	$15.00
GPT-5.4 (OpenAI)	闭源	$2.50	$15.00
GLM-5 (Baseten)	开源	$0.95	$3.15
MiniMax M2.7 (OpenRouter)	开源	$0.30	$1.20

举个例子：一个每天输出 1000 万 token 的应用，在 Opus 4.6 上每天成本约 250 美元，而在 MiniMax M2.7 上仅需约 12 美元。这相当于每年相差约 8.7 万美元。

我们的评估方法

每个评估案例都定义了成功断言（决定正确性的硬性检查）和效率断言（衡量模型如何达到目标的软性检查）。我们报告四个指标：

正确性 — 模型解决的测试比例：passed / total。得分 0.68 意味着 68% 的测试用例被正确解决。这是主要的质量信号。
解决率 — 准确性和速度的综合衡量。对于每个测试，我们计算 expected_steps / wall_clock_seconds；失败的测试贡献为零。最终得分是所有测试的平均值。越高越好——既能正确又能快速解决任务的模型得分最高。
步骤比 — 模型实际采取的智能体步骤数与预期步骤数之比，跨所有测试汇总：total_actual_steps / total_expected_steps。值为 1.0 意味着模型使用了预期的步骤数。高于 1.0 意味着需要更多步骤（效率较低）；低于 1.0 意味着需要的步骤比最初预期的少。
工具调用比 — 与步骤比概念相同，但计算的是单个工具调用而不是步骤。1.0 是按预算，高于是超预算，低于是低于预算。

评估结果

这些是早期结果；我们正在积极维护和扩展我们的评估集。你可以实时查看最近的运行结果，包括我们的 GitHub 仓库和这个共享的 LangSmith 项目。

开源模型

查看 CI 运行（点击模型名称查看单个评估）

模型	正确性	通过数	解决率	步骤比	工具调用比
baseten:zai-org/GLM-5	0.64	94 of 138	1.17	1.02	1.06
ollama:minimax-m2.7	0.57	85 of 138	0.27	1.02	1.04

按类别正确性：

模型	对话	文件操作	记忆	检索	摘要	工具调用	单元测试
baseten:zai-org/GLM-5	0.38	1	0.44	1	0.6	0.82	1
ollama:minimax-m2.7:cloud	0.14	0.92	0.38	0.8	0.6	0.87	0.92

前沿模型

查看 CI 运行（点击模型名称查看单个评估）

模型	正确性	通过数	解决率	步骤比	工具调用比
anthropic:claude-opus-4-6	0.68	100 of 138	0.38	0.99	1.02
google_genai:gemini-3.1-pro-preview	0.65	96 of 138	0.26	0.99	1.01
openai:gpt-5.4	0.61	91 of 138	0.61	1.05	1.15

按类别正确性：

模型	对话	文件操作	记忆	检索	摘要	工具调用	单元测试
anthropic:claude-opus-4-6	0.05	1	0.67	1	1	0.87	1
google_genai:gemini-3.1-pro-preview	0.24	0.92	0.62	1	0.8	0.79	0.92
openai:gpt-5.4	0.29	1	0.44	1	0.8	0.76	1

自己动手：本地运行 Deep Agent 评估

运行针对所有开源模型的评估：pytest tests/evals --model-group open
运行针对特定模型的评估：pytest tests/evals --model baseten:zai-org/GLM-5

这使得在同一任务上、使用相同的评分标准，比较开源模型之间以及开源模型与闭源前沿模型变得简单直接。

在 Deep Agents SDK 中使用开源模型

切换到开源模型只需一行代码：

GLM-5：

code

# pip install langchain-baseten
from deepagents import create_deep_agent

agent = create_deep_agent(model="baseten:zai-org/GLM-5")

MiniMax M2.7：

code

# pip install langchain-openrouter
from deepagents import create_deep_agent

agent = create_deep_agent(model="openrouter:minimax/minimax-m2.7")

LangChain 为最流行的开源模型提供商提供支持。我们为此版本测试的提供商包括：Baseten、Fireworks、Groq、OpenRouter 和 Ollama（云）。

为你的模型调整执行框架级别

开源模型与闭源前沿模型有不同的上下文窗口、不同的工具调用格式和不同的失败模式。Deep Agents 执行框架吸收了这些差异，所以你不需要处理：

模型身份注入 — 系统提示在运行时被修补，包含模型的名称、提供商、上下文限制和支持的模式。智能体知道它是什么以及它能做什么。
上下文管理 — 压缩、卸载和摘要阈值会根据模型的实际上下文窗口进行调整，而不是硬编码的默认值。一个拥有 4K 上下文的模型会比拥有 1M 上下文的 Opus 获得更积极的压缩。

Deep Agents CLI

每个模型也可以在 Deep Agents CLI 中使用。Deep Agents CLI 是我们的开源编码智能体，也是 Claude Code 的替代品。

你可以使用 /model 斜杠命令在会话中切换模型。这使得像使用前沿模型开始任务进行规划，然后切换到更便宜的开源模型进行执行的模式成为可能。

0:00

/0:50

下一步计划

我们期待很快分享的一些事情：

记录针对特定开源模型系列的执行框架调优模式
测试多模型子智能体配置（例如：前沿闭源模型编排器 + 开源模型子智能体）

开源模型现在就可以用于智能体。我们想展示帮助我们设计良好执行框架的设计模式，并构建有针对性的评估来衡量对你的任务重要的指标。

Deep Agents 是开源的。用你喜欢的开源模型试试，和我们一起构建出色的评估和智能体。

本文编译自 Open Models have crossed a threshold，版权归原作者所有。

觉得有用？分享给更多人

为什么选择开源模型

探索开源模型时，构建者和客户通常会关注几个关键因素：成本、延迟和任务性能。

模型	类型	输入（$/M tokens）	输出（$/M tokens）
Claude Opus 4.6 (Anthropic)	闭源	$5.00	$25.00
Claude Sonnet 4.6 (Anthropic)	闭源	$3.00	$15.00
GPT-5.4 (OpenAI)	闭源	$2.50	$15.00
GLM-5 (Baseten)	开源	$0.95	$3.15
MiniMax M2.7 (OpenRouter)	开源	$0.30	$1.20

举个例子：一个每天输出 1000 万 token 的应用，在 Opus 4.6 上每天成本约 250 美元，而在 MiniMax M2.7 上仅需约 12 美元。这相当于每年相差约 8.7 万美元。

我们的评估方法

每个评估案例都定义了成功断言（决定正确性的硬性检查）和效率断言（衡量模型如何达到目标的软性检查）。我们报告四个指标：

正确性 — 模型解决的测试比例：passed / total。得分 0.68 意味着 68% 的测试用例被正确解决。这是主要的质量信号。
解决率 — 准确性和速度的综合衡量。对于每个测试，我们计算 expected_steps / wall_clock_seconds；失败的测试贡献为零。最终得分是所有测试的平均值。越高越好——既能正确又能快速解决任务的模型得分最高。
步骤比 — 模型实际采取的智能体步骤数与预期步骤数之比，跨所有测试汇总：total_actual_steps / total_expected_steps。值为 1.0 意味着模型使用了预期的步骤数。高于 1.0 意味着需要更多步骤（效率较低）；低于 1.0 意味着需要的步骤比最初预期的少。
工具调用比 — 与步骤比概念相同，但计算的是单个工具调用而不是步骤。1.0 是按预算，高于是超预算，低于是低于预算。

评估结果

这些是早期结果；我们正在积极维护和扩展我们的评估集。你可以实时查看最近的运行结果，包括我们的 GitHub 仓库和这个共享的 LangSmith 项目。

开源模型

查看 CI 运行（点击模型名称查看单个评估）

模型	正确性	通过数	解决率	步骤比	工具调用比
baseten:zai-org/GLM-5	0.64	94 of 138	1.17	1.02	1.06
ollama:minimax-m2.7	0.57	85 of 138	0.27	1.02	1.04

按类别正确性：

模型	对话	文件操作	记忆	检索	摘要	工具调用	单元测试
baseten:zai-org/GLM-5	0.38	1	0.44	1	0.6	0.82	1
ollama:minimax-m2.7:cloud	0.14	0.92	0.38	0.8	0.6	0.87	0.92

前沿模型

查看 CI 运行（点击模型名称查看单个评估）

模型	正确性	通过数	解决率	步骤比	工具调用比
anthropic:claude-opus-4-6	0.68	100 of 138	0.38	0.99	1.02
google_genai:gemini-3.1-pro-preview	0.65	96 of 138	0.26	0.99	1.01
openai:gpt-5.4	0.61	91 of 138	0.61	1.05	1.15

按类别正确性：

模型	对话	文件操作	记忆	检索	摘要	工具调用	单元测试
anthropic:claude-opus-4-6	0.05	1	0.67	1	1	0.87	1
google_genai:gemini-3.1-pro-preview	0.24	0.92	0.62	1	0.8	0.79	0.92
openai:gpt-5.4	0.29	1	0.44	1	0.8	0.76	1

自己动手：本地运行 Deep Agent 评估

运行针对所有开源模型的评估：pytest tests/evals --model-group open
运行针对特定模型的评估：pytest tests/evals --model baseten:zai-org/GLM-5

这使得在同一任务上、使用相同的评分标准，比较开源模型之间以及开源模型与闭源前沿模型变得简单直接。

在 Deep Agents SDK 中使用开源模型

切换到开源模型只需一行代码：

GLM-5：

code

# pip install langchain-baseten
from deepagents import create_deep_agent

agent = create_deep_agent(model="baseten:zai-org/GLM-5")

MiniMax M2.7：

code

# pip install langchain-openrouter
from deepagents import create_deep_agent

agent = create_deep_agent(model="openrouter:minimax/minimax-m2.7")

LangChain 为最流行的开源模型提供商提供支持。我们为此版本测试的提供商包括：Baseten、Fireworks、Groq、OpenRouter 和 Ollama（云）。

为你的模型调整执行框架级别

开源模型与闭源前沿模型有不同的上下文窗口、不同的工具调用格式和不同的失败模式。Deep Agents 执行框架吸收了这些差异，所以你不需要处理：

模型身份注入 — 系统提示在运行时被修补，包含模型的名称、提供商、上下文限制和支持的模式。智能体知道它是什么以及它能做什么。
上下文管理 — 压缩、卸载和摘要阈值会根据模型的实际上下文窗口进行调整，而不是硬编码的默认值。一个拥有 4K 上下文的模型会比拥有 1M 上下文的 Opus 获得更积极的压缩。

Deep Agents CLI

每个模型也可以在 Deep Agents CLI 中使用。Deep Agents CLI 是我们的开源编码智能体，也是 Claude Code 的替代品。

你可以使用 /model 斜杠命令在会话中切换模型。这使得像使用前沿模型开始任务进行规划，然后切换到更便宜的开源模型进行执行的模式成为可能。

0:00

/0:50

下一步计划

我们期待很快分享的一些事情：

记录针对特定开源模型系列的执行框架调优模式
测试多模型子智能体配置（例如：前沿闭源模型编排器 + 开源模型子智能体）

开源模型现在就可以用于智能体。我们想展示帮助我们设计良好执行框架的设计模式，并构建有针对性的评估来衡量对你的任务重要的指标。

Deep Agents 是开源的。用你喜欢的开源模型试试，和我们一起构建出色的评估和智能体。

开源模型在智能体任务上已追平闭源模型

为什么选择开源模型

我们的评估方法

评估结果

开源模型

前沿模型

自己动手：本地运行 Deep Agent 评估

在 Deep Agents SDK 中使用开源模型

为你的模型调整执行框架级别

Deep Agents CLI

下一步计划

为什么选择开源模型

我们的评估方法

评估结果

开源模型

前沿模型

自己动手：本地运行 Deep Agent 评估

在 Deep Agents SDK 中使用开源模型

为你的模型调整执行框架级别

Deep Agents CLI

下一步计划

概念速查

相关文章

Simon Willison 调研四大 LLM 的 HTTP API

Skill0：通过上下文智能体强化学习实现技能内化

评论

为什么选择开源模型

我们的评估方法

评估结果

开源模型

前沿模型

自己动手：本地运行 Deep Agent 评估

在 Deep Agents SDK 中使用开源模型

为你的模型调整执行框架级别

Deep Agents CLI

下一步计划