GPT-5.4 mini/nano:专为子智能体时代而生

深度The New Stack2026年3月17日3 分钟阅读
GPT-5.4 mini/nano:专为子智能体时代而生
OpenAI 新发布的 GPT-5.4 mini 和 nano 模型,在编码基准测试中接近旗舰版性能,但成本大幅降低。它们专为被智能体系统委派任务而设计,如代码库搜索、文件审查等并行子任务。

周二,OpenAI 发布了 GPT-5.4 mini 和 nano 两款小型模型。它们专为智能体(Agent)系统委派的任务而设计:代码库搜索、文件审查,以及那些需要快速且经济高效的并行子任务。

这是 OpenAI 一段时间以来首次推出新的 mini 和 nano 模型,上一次发布还是 2025 年的 GPT-5 mini 和 nano。

特别有趣的是,在某些领域,使用 mini 模型与完整版 GPT-5.4 之间的权衡并不大,尤其是在编码和计算机使用基准测试上,同时运行速度还快两倍以上。nano 则是精简版,适用于高吞吐量工作:分类、数据提取、排序和轻量级编码支持。两款模型均已上线。

定价与可用性

GPT-5.4 mini 可通过 API、Codex 和 ChatGPT 使用。它拥有 40 万 token 的上下文窗口(Context Window),支持文本和图像输入,输入 token 每百万 0.75 美元,输出 token 每百万 4.50 美元。

对于使用 OpenAI Codex 智能体编码引擎的开发者,mini 仅消耗 GPT-5.4 配额的 30%,这有助于开发者处理常规编码任务而不过度消耗配额。

OpenAI 对 GPT-5.4 nano 采取了不同策略。它仅通过 API 提供,输入 token 每百万 0.20 美元,输出 token 每百万 1.25 美元,是 OpenAI 目前最便宜的模型。

mini 离旗舰版有多近?

在 SWE-bench Pro(测试模型真实软件工程任务的基准)上,mini 得分为 54.38%,仅比完整版 GPT-5.4 低 3 个百分点。在 OSWorld-Verified(衡量计算机使用能力的基准)上,mini 得分为 72.13%,几乎与旗舰版的 75.03% 持平(这些测试均在‘高’推理努力下运行)。

nano 的表现显然没那么好,但它在编码和工具调用(Tool Use)任务上仍优于最初的 GPT-5 mini,不过在 OSWorld-Verified 上得分较低(39.01% 对 42%)。你肯定不想让 nano 模型替你上网冲浪。

图片来源:OpenAI。

专为委派而设计

OpenAI 强调的整体模式正变得熟悉。在 Codex 中,GPT-5.4 负责规划、协调和最终审查。mini 子智能体(Subagent)在底层并行运行,处理聚焦任务:搜索代码库、审查大文件、处理支持文档。OpenAI 在公告中表示,在这些场景下,最好的模型往往不是最大的那个,而是能够快速响应、可靠使用工具,同时在复杂专业任务上表现良好的模型。

Notion AI 工程负责人 Abhisek Modi 表示,这种转变已成现实。“GPT-5.4 mini 处理聚焦、定义明确的任务时,精度令人印象深刻。特别是在编辑页面方面,它在处理复杂格式时匹配甚至经常超越 GPT-5.2,而计算成本只是后者的一小部分,”他说,“直到最近,只有最昂贵的模型才能可靠地进行智能体工具调用。如今,像 GPT-5.4 mini 和 nano 这样的小型模型也能轻松应对,这将让我们的用户在 Notion 上构建自定义智能体(Custom Agent)时,能精确选择所需智能水平。”

OpenAI 的竞争对手也在其小型模型上采取类似方法。Anthropic 的 Claude 4.5 Haiku 专为轻量级智能体任务设计;Google 的 Gemini 3 Flash 也针对类似用例。

随着智能体承担更复杂的工作,大部分计算将流向这些廉价的主力模型,而非排行榜顶端的尖端模型。

本文编译自 OpenAI’s GPT-5.4 mini and nano are built for the subagent era,版权归原作者所有。

觉得有用?分享给更多人

获取每周 AI 工具精选

工具推荐、实战教程和生态洞察,每周更新。

相关文章

Simon Willison 正在重构 LLM Python 库的抽象层,以支持服务器端工具执行等新功能。他利用 Claude Code 分析了四大 LLM 提供商的客户端库,生成了用于测试的 curl 命令和 JSON 输出。这些调研材料已开源,旨在帮助设计更通用的 API 抽象。

深度Simon Willison·4月5日·1 分钟

智能体技能——包含程序性知识和可执行资源的结构化包,供智能体在推理时动态加载——已成为增强 LLM 智能体的可靠机制。然而,推理时技能增强存在根本性限制:检索噪声引入无关指导,注入的技能内容带来大量 token 开销,而模型从未真正习得它所遵循的知识。我们提出一个问题:技能是否可以被内化到模型参数中,使其在无需任何运行时技能检索的情况下实现零样本自主行为?我们提出 Skill0,一个专为技能内化设计的上下文强化学习框架。Skill0 引入了一种训练时课程,从提供完整技能上下文开始,逐步撤除。技能按类别离线分组,并与交互历史一起渲染为紧凑的视觉上下文,教授模型工具调用和多轮任务完成。动态课程机制…

深度·4月5日·17 分钟

评论