GPT-5.4 发布:更强但更贵

OpenAI 周四发布了 GPT-5.4,这是其前沿模型的新版本。公司称其为“专业工作领域最强大、最高效的前沿模型”,并指出它结合了近期发布的 GPT-5.3-Codex 的编码能力,并增强了对电子表格、文档和演示文稿的支持。
公司表示,新模型在网页搜索和需要长时间思考的查询上下文保持方面表现更好。此外,OpenAI 改进了模型的计算机使用能力,现在允许它在工具较多的生态系统中更高效地选择合适工具。
OpenAI 声称,这也是公司迄今最准确的模型,“与 GPT-5.2 相比,回答包含错误的可能性降低 18%,单个陈述为假的可能性降低 33%”。
对于 API 用户,GPT-5.4 还移除了百万 token 窗口的测试标签。Codex 现在也支持这个扩展的 token 窗口,但超过 272,000 token 的请求将按 2 倍计入使用限制。
一个特别有趣的新功能是,GPT-5.4 Thinking 现在可以预先展示其思考计划,允许用户在模型工作时中途引导它,确保它不会在消耗数千 token 后走错方向。
你可能会问:OpenAI 不是这周才发布了 GPT-5.3-Instant 吗?是的。OpenAI 的版本号一直有点奇怪,但看起来主流模型又跳过一个数字。5.3-Instant 将继续作为 ChatGPT 的主力模型。

OpenAI GPT-5.4 基准测试(来源:OpenAI)。
模型更贵,但 token 使用更少
新模型将提供 Thinking 和 Pro 版本。GPT-5.4 Thinking 将在 ChatGPT、API 和 Codex 智能体编码应用中可用。
价格显著更高的 GPT-5.4 Pro 仅适用于 ChatGPT 和 API,但不适用于 Codex。这可能是件好事。每百万输入/输出 token 费用为 30/180 美元(GPT-5.2 Pro 定价为 21/168 美元),5.4 Pro 是 OpenAI 迄今最贵的模型,你肯定不想被账单吓到。
同样的价格上涨适用于标准 Thinking 模式,每百万输入/输出 token 费用将从 1.75/14 美元升至 2.50/15 美元。

OpenAI GPT-5.4 定价(来源:OpenAI)。
然而,OpenAI 辩称,更新后的模型在 token 使用上效率高得多。“GPT-5.4 是我们迄今最高效的推理模型,与 GPT-5.2 相比,解决问题使用的 token 显著减少——这意味着更低的 token 使用量和更快的速度,”OpenAI 在公告中写道。
“在 API 中,GPT-5.4 每 token 定价高于 GPT-5.2,以反映其改进的能力,而其更高的 token 效率有助于减少许多任务所需的总 token 数,”OpenAI 写道。“批处理和灵活定价以标准 API 费率的一半提供,而优先处理以标准 API 费率的两倍提供。”
基准测试
在标准基准测试中,新模型不出所料地以较大优势超越前代。即使在编码任务上,新模型也击败了 OpenAI 自己近期的 Codex 发布(以及 Google 的 Gemini 3.1 Pro)在 SWE-Bench Pro 基准测试上的表现。
在智能体用例和计算机使用方面,GPT-5.4 Thinking 也表现不错,大多领先于 Anthropic 的 Opus 4.6 和 Google 的 Gemini 3.1 Pro。
对于大多数这些任务,OpenAI 强调,新模型在仍使用比前代更少 token 的情况下实现这些结果。
知识工作能力更强
GPT 5.4 Pro 价格高昂,在 OpenAI 提供的基准测试中并不总是显著优于 Thinking 版本。它在 BrowseComp 智能体浏览测试中表现更好,但很少有用户会用 Pro 版做这个。然而,它在解决高级数学问题上表现出色,在 FrontierMath 基准测试中最难问题上得分 38%,而 Thinking 版本为 27.1%。
一个领域,也许是大多数知识工作者应该关注的,是它在 GDPval 基准测试上的得分,该测试评估模型处理 44 种职业真实任务的能力。新模型在那里得分 83%,意味着它在 83% 的比较中匹配或超过行业专业人士。Anthropic 的 Opus 4.6 在那里得分 79.5%。
OpenAI 还进行了一些内部基准测试。“在一组演示评估提示中,人类评估者 68.0% 的时间更喜欢 GPT-5.4 生成的演示,而不是 GPT-5.2,因为更强的美学、更大的视觉多样性和更有效的图像生成使用,”OpenAI 写道。
在另一个内部基准测试中,模型在模拟初级投资银行家工作的电子表格任务上得分 87.5%。
Box 在早期测试中看到了类似的改进。“在 Box 比较 GPT-5.2 和 GPT-5.4 的评估中,我们看到在复杂提取任务数据集上的整体性能从 72% 提升到 78%。这些收益表明从文档中单次提取多条信息的能力增强,包括需要多步推理的任务——这是驱动和通知企业工作流的关键能力,”Box 人工智能负责人 Yashodha Bhavnani 在一份声明中说。
可用性
新模型现已在 ChatGPT 和 Codex 中逐步推出。Thinking 版本将适用于 Plus、Team 和 Pro 用户(Enterprise 和 Edu 用户需要管理员启用),而 Pro 模型仅适用于 Pro 和 Enterprise 计划的用户。
新模型将在 API 中以 gpt-5.4 和 gpt-5.3-pro 提供。

来源:OpenAI。
觉得有用?分享给更多人