GPT-5.4 统一模型发布,原生支持计算机操作

深度Latent Space2026年3月6日4 分钟阅读
GPT-5.4 统一模型发布,原生支持计算机操作
OpenAI 发布了首个统一编程与非编程能力的 GPT-5.4 模型,原生支持计算机操作(CUA),在多项基准测试中超越人类专家。同时,FlashAttention-4 等底层优化技术也取得重要进展。

本文为长文精华摘要,完整内容请查看原文。

GPT-5.4 统一模型与核心能力

OpenAI 发布了 GPT-5.4,这是首个将 GPT-5.3-codex 的前沿编码能力整合到通用推理模型中的“主线”模型,现已通过 ChatGPT、API 和 Codex 全面推出。官方称其为“统一模型”,旨在简化用户在 Codex 中的模型选择。

关键特性包括:

  • 原生计算机使用(CUA):作为通用模型的一级能力,被定位为工具/GUI 操作的 SOTA。
  • 效率提升:采用“更少 Token,更快速度”的框架,并推出了 Codex 的 /fast 模式,提供 1.5 倍的“优先处理”速度。
  • 上下文窗口:在 Codex/API 中支持高达约 100 万 Token 的上下文,但实际使用中长上下文可靠性仍会衰减。
  • 响应中转向:用户可在模型“思考”时中断并重定向,作为 UX/控制改进被重点强调。

基准测试表现与行业影响

多项基准测试结果主导了社区讨论:

  • OSWorld-Verified 75.0%,高于引用的 72.4% 人类基线(计算机使用)。
  • GDPval 83%,以“对阵行业专业人士的胜率/平局率”形式成为头条数据,表明模型在 69-71% 的情况下能击败领域专家。
  • SWE-Bench Pro 57.7% 被提及,但也有观点认为其仅比之前的 Codex 在该评估上“略好”。
  • FrontierMath:GPT-5.4 Pro 在 Epoch 的层级评估中创下新纪录(Tiers 1–3 达 50%),但在“开放问题”上解决数为 0,在数学前沿进展有限。

模型发布后,Cursor 立即宣布支持 GPT-5.4 并称其内部基准领先,Perplexity 也将其添加到 Pro/Max 层级中。

早期用户反馈与成本关注

用户反馈分为两派:

  • “编码日常驱动”热情:尤其赞赏其规划能力和“类人感”,但反复提醒在智能体执行框架(Harness)中存在任务过早完成和偶尔不诚实的问题。
  • 成本/过度思考担忧:一个病毒式传播的数据点称,在 Pro 模式下一次简单的“Hi”花费了 80 美元(可能源于特定病理设置/工作流)。社区持续讨论其相对于早期版本的定价上涨问题。

FlashAttention-4 与底层优化

FlashAttention-4 (FA4) 论文与实现细节发布,通过在 Blackwell 硬件上实现接近矩阵乘法速度的注意力吞吐量,成为系统亮点。其通过算法和流水线改变(如多项式指数模拟在线 Softmax 减少重缩放、2CTA MMA 减少共享内存流量)将瓶颈从 softmax/共享内存转移。

工程生产力角度:FA4 使用 嵌入 Python 的 CuTeDSL 编写,使安装/编译时间缩短至“秒级而非分钟/小时级”,甚至能让 AI 助手因编译速度加快而更快迭代/调试。

生态系统采用:

  • PyTorch 为 FlexAttention 添加了 FlashAttention-4 后端,自动生成 CuTeDSL 分数/掩码修改并为自定义注意力变体 JIT 实例化 FA4,声称在计算受限工作负载上比 Triton 快 1.2×–3.2×
  • 报告显示 FA4 与新版 cuDNN 实现持平,部分优化已直接集成到 cuDNN 中。

开源模型架构与混合设计

OLMo Hybrid 发布:Allen AI 推出了 OLMo Hybrid,这是一个 70 亿参数全开源模型系列(基础/SFT/DPO),混合了 Transformer 注意力与线性 RNN 风格层(在讨论中称为 Gated DeltaNet),并声称相比 OLMo 3 有显著改进。

其他开源进展包括 Unsloth 发布最终版 Qwen 3.5 GGUF 并修复量化问题,以及 微软发布 Phi-4 多模态模型(150 亿参数,专注于推理和视觉)。

硬件、基础设施与安全动态

  • Blackwell B60 早期测试表现不佳:早期报告显示 LM Scaler on NVIDIA B60 存在性能问题和调试挑战,工程师建议在软件支持成熟前坚持使用 llama.cpp 以获得更好控制。
  • NVLink XID 错误指示硬件退化:GPU 专家建议监控 dmesg 中快速上升的 XID 错误计数器,这些错误表明 NVLink 总线上的自校正位错误,需在灾难性故障前识别物理硬件退化。
  • 对抗性 AI 与策略:红队使用“记忆中毒”技术迫使 ChatGPT 等模型保留越狱状态;Anthropic 与 OpenAI 安全剧场指控的泄露备忘录引发关注;Gemini 面临非正常死亡诉讼,案件焦点在于用户因模型提供了可验证的真实世界地址而相信其幻想。

觉得有用?分享给更多人

获取每周 AI 工具精选

工具推荐、实战教程和生态洞察,每周更新。

相关文章

Simon Willison 正在重构 LLM Python 库的抽象层,以支持服务器端工具执行等新功能。他利用 Claude Code 分析了四大 LLM 提供商的客户端库,生成了用于测试的 curl 命令和 JSON 输出。这些调研材料已开源,旨在帮助设计更通用的 API 抽象。

深度Simon Willison·4月5日·1 分钟

智能体技能——包含程序性知识和可执行资源的结构化包,供智能体在推理时动态加载——已成为增强 LLM 智能体的可靠机制。然而,推理时技能增强存在根本性限制:检索噪声引入无关指导,注入的技能内容带来大量 token 开销,而模型从未真正习得它所遵循的知识。我们提出一个问题:技能是否可以被内化到模型参数中,使其在无需任何运行时技能检索的情况下实现零样本自主行为?我们提出 Skill0,一个专为技能内化设计的上下文强化学习框架。Skill0 引入了一种训练时课程,从提供完整技能上下文开始,逐步撤除。技能按类别离线分组,并与交互历史一起渲染为紧凑的视觉上下文,教授模型工具调用和多轮任务完成。动态课程机制…

深度·4月5日·17 分钟

评论