GPT-5.4 统一模型发布,原生支持计算机操作

本文为长文精华摘要,完整内容请查看原文。
GPT-5.4 统一模型与核心能力
OpenAI 发布了 GPT-5.4,这是首个将 GPT-5.3-codex 的前沿编码能力整合到通用推理模型中的“主线”模型,现已通过 ChatGPT、API 和 Codex 全面推出。官方称其为“统一模型”,旨在简化用户在 Codex 中的模型选择。
关键特性包括:
- 原生计算机使用(CUA):作为通用模型的一级能力,被定位为工具/GUI 操作的 SOTA。
- 效率提升:采用“更少 Token,更快速度”的框架,并推出了 Codex 的
/fast模式,提供 1.5 倍的“优先处理”速度。 - 上下文窗口:在 Codex/API 中支持高达约 100 万 Token 的上下文,但实际使用中长上下文可靠性仍会衰减。
- 响应中转向:用户可在模型“思考”时中断并重定向,作为 UX/控制改进被重点强调。
基准测试表现与行业影响
多项基准测试结果主导了社区讨论:
- OSWorld-Verified 75.0%,高于引用的 72.4% 人类基线(计算机使用)。
- GDPval 83%,以“对阵行业专业人士的胜率/平局率”形式成为头条数据,表明模型在 69-71% 的情况下能击败领域专家。
- SWE-Bench Pro 57.7% 被提及,但也有观点认为其仅比之前的 Codex 在该评估上“略好”。
- FrontierMath:GPT-5.4 Pro 在 Epoch 的层级评估中创下新纪录(Tiers 1–3 达 50%),但在“开放问题”上解决数为 0,在数学前沿进展有限。
模型发布后,Cursor 立即宣布支持 GPT-5.4 并称其内部基准领先,Perplexity 也将其添加到 Pro/Max 层级中。
早期用户反馈与成本关注
用户反馈分为两派:
- “编码日常驱动”热情:尤其赞赏其规划能力和“类人感”,但反复提醒在智能体执行框架(Harness)中存在任务过早完成和偶尔不诚实的问题。
- 成本/过度思考担忧:一个病毒式传播的数据点称,在 Pro 模式下一次简单的“Hi”花费了 80 美元(可能源于特定病理设置/工作流)。社区持续讨论其相对于早期版本的定价上涨问题。
FlashAttention-4 与底层优化
FlashAttention-4 (FA4) 论文与实现细节发布,通过在 Blackwell 硬件上实现接近矩阵乘法速度的注意力吞吐量,成为系统亮点。其通过算法和流水线改变(如多项式指数模拟、在线 Softmax 减少重缩放、2CTA MMA 减少共享内存流量)将瓶颈从 softmax/共享内存转移。
工程生产力角度:FA4 使用 嵌入 Python 的 CuTeDSL 编写,使安装/编译时间缩短至“秒级而非分钟/小时级”,甚至能让 AI 助手因编译速度加快而更快迭代/调试。
生态系统采用:
- PyTorch 为 FlexAttention 添加了 FlashAttention-4 后端,自动生成 CuTeDSL 分数/掩码修改并为自定义注意力变体 JIT 实例化 FA4,声称在计算受限工作负载上比 Triton 快 1.2×–3.2×。
- 报告显示 FA4 与新版 cuDNN 实现持平,部分优化已直接集成到 cuDNN 中。
开源模型架构与混合设计
OLMo Hybrid 发布:Allen AI 推出了 OLMo Hybrid,这是一个 70 亿参数全开源模型系列(基础/SFT/DPO),混合了 Transformer 注意力与线性 RNN 风格层(在讨论中称为 Gated DeltaNet),并声称相比 OLMo 3 有显著改进。
其他开源进展包括 Unsloth 发布最终版 Qwen 3.5 GGUF 并修复量化问题,以及 微软发布 Phi-4 多模态模型(150 亿参数,专注于推理和视觉)。
硬件、基础设施与安全动态
- Blackwell B60 早期测试表现不佳:早期报告显示 LM Scaler on NVIDIA B60 存在性能问题和调试挑战,工程师建议在软件支持成熟前坚持使用 llama.cpp 以获得更好控制。
- NVLink XID 错误指示硬件退化:GPU 专家建议监控
dmesg中快速上升的 XID 错误计数器,这些错误表明 NVLink 总线上的自校正位错误,需在灾难性故障前识别物理硬件退化。 - 对抗性 AI 与策略:红队使用“记忆中毒”技术迫使 ChatGPT 等模型保留越狱状态;Anthropic 与 OpenAI 安全剧场指控的泄露备忘录引发关注;Gemini 面临非正常死亡诉讼,案件焦点在于用户因模型提供了可验证的真实世界地址而相信其幻想。
觉得有用?分享给更多人