GPT-5.4 发布，AI 重塑职场，Claude 用户激增

我是 Matt Burns，Insight Media Group 的编辑总监。每周我会汇总最重要的 AI 进展——不只是头条新闻，还有这些进展对实际应用这项技术的人和组织的意义。核心观点很简单：学会使用 AI 的从业者将定义各自行业的下一阶段，这份简报旨在助你成为其中一员。

OpenAI 发布 GPT-5.4，Codex 用户达 160 万

OpenAI 这周很忙。周四，它推出了 GPT-5.4，这是其前沿模型的新版本。公司称其为“面向专业工作最强大、最高效的前沿模型”。它结合了 GPT-5.3-Codex 的编码能力，并增强了对电子表格、文档和演示文稿的支持。

基准测试成绩亮眼：错误更少，虚假声明减少，在 GDPval 测试中得分 83%。该测试针对 44 种职业的真实世界任务评估模型，意味着它在 83% 的比较中匹配或超越了行业专业人士。Anthropic 的 Opus 4.6 在同一测试中得分 79.5%。

但 GPT-5.4 是 OpenAI 目前每 token 成本最高的模型；公司表示它在每个任务中消耗的 token 比其他模型少。

本周早些时候，OpenAI 终于在 Windows 上发布了 Codex。该应用专为 Windows 开发环境构建，支持原生沙箱和 Windows 开发者熟悉的工作流。The New Stack 本周报道称，OpenAI 的 Codex 现在拥有 160 万周活跃用户。

@systemticls 发布了一篇好文，探讨“智能体工程（Agentic Engineering）”在实际中是什么样子——读起来更像软件架构手册，而非提示指南。任务分解、反馈循环、安全护栏（Guardrails）、每一步的模型选择。那些最能发挥 Codex（和 Claude Code）价值的人，不是在写更好的提示，而是在设计更好的系统。

AI 正以意想不到的方式重塑就业

Anthropic 本周发布了一项新研究，引入了一个名为“实际暴露度”的衡量指标。它结合了理论上的 LLM 能力与实际使用数据。

发现是什么？AI 远未达到其理论能力。实际任务覆盖率仅为可行范围的一小部分。计算机程序员是暴露度最高的职业，但研究显示，自 2022 年以来，经济中其他高暴露度工人的失业率并未系统性上升。

研究指出了一个警示信号：有迹象表明，暴露度高的职业对 22 至 25 岁工人的招聘速度放缓。这表明工作并未消失，但谁能获得这些工作可能正在改变。

Towards Data Science 上的一篇新文章更详细地论证了这种转变。Favio Vazquez 认为，技术的递归进步不等于采用的递归加速。AI 模型以软件速度改进，但现实世界受基础设施、法规和组织变革的制约。Vazquez 指出，工作并未消失，而是围绕系统设计、战略和判断进行重组。

Kevin Rose 说得对：如果智能体（Agent）能写代码，价值就转移到知道该构建什么上。这就是现在的工作。

CLI 正在为智能体重构

Google 悄然发布了 gws，这是一个用于所有 Google Workspace（Gmail、Drive、Calendar、Docs、Sheets 等）的统一 CLI。它拥有 40 多个智能体技能（Skills）并支持 MCP。但有趣的部分在于设计：它是从 Google 的 Discovery Service 自动生成的，因此始终匹配当前的 API 接口。每个命令都返回结构化的 JSON。每个模式都可内省。这不是为偶尔自动化的人类设计的工具，而是为智能体设计的工具。

gws 的负责人 Justin Poehnelt 写了一篇文章，精准地命名了这种转变：“智能体开发者体验（Agent DX）”与“人类开发者体验（Human DX）”。他认为，我们所知的良好 CLI 设计原则——可发现性、渐进式披露、有用的错误信息——对智能体来说完全是错的。智能体需要可预测性、结构化输出、明确的失败和零交互提示。他列出了七条原则，值得一读。

Anthropic 的 Dickson Tsai 本周也宣布了 Claude Code 的 HTTP 钩子。这是另一个迹象，表明开发者工具正将智能体作为一等公民来设计，而非事后补充。

这个模式对任何构建内部工具的人都至关重要。如果你的 CLI 仍为人类输出漂亮的表格，那已经落后了。

智能体编排正成为关键层

单个智能体能完成工作。但仍需要有人来当经理。本周有两个开源项目发布，试图做到这一点。

OpenAI 发布了 Symphony，它监控工作队列——从 Linear 看板开始——拾取任务，在隔离环境中生成智能体执行任务，运行测试，并提交 PR。这是一个永不休息的项目经理。架构是模块化的：可以换用不同的 LLM 提供商、不同的项目管理工具、不同的 CI 流水线。

Paperclip 走得更远。它是一个用于管理整个智能体组织的框架，包括组织结构图、预算、支出限制和治理规则。每个智能体都有一个角色和一套工具。系统在整个操作过程中跟踪 token 成本。

两者都处于早期阶段。两者都有明显的不足。但它们展示了未来更好的智能体管理的编排（Orchestration）层。这是一个值得关注的重要层面。那些弄清楚如何构建智能体团队、定义边界并保持质量控制的公司将快速领先。

OpenAI 陷入危机管控，Anthropic 打破纪录

上周，五角大楼踢走了 Anthropic，几小时后与 OpenAI 签约。本周，OpenAI 负责人 Sam Altman 正在处理公关余波，而 Anthropic 则收到了正式的供应链风险文件。

周四，Anthropic CEO Dario Amodei 证实，战争部将 Anthropic 指定为国家安全供应链风险。公司表示该指定范围狭窄——仅适用于 Claude 在战争部合同直接部分的使用，而非承包商对 Claude 的所有使用。Amodei 表示公司将通过法律途径挑战该指定。他还为一份泄露的内部备忘录道歉，称其中的简洁措辞并非其真实观点的反映。他在发布的声明中语气缓和，表示 Anthropic 将在过渡期间继续以名义成本向战争部和国家安全界提供模型。他强调 Anthropic“与战争部的共同点远多于分歧”。

更广泛的余波对 OpenAI 打击更大。在 OpenAI 与五角大楼的新协议宣布前，已有超过 300 名 Google 员工和 60 名 OpenAI 员工签署公开信支持 Anthropic 的立场。协议公布后，OpenAI 旧金山办公室外出现了粉笔字：“你们的红线在哪里？” Altman 承认协议“看起来机会主义且草率”，并在 3 月 4 日告诉员工他“为让他们承受反弹感到糟糕”。几天内，OpenAI 修改了合同，增加了原合同中缺失的明确监控保护条款。

损害已经造成。大约250 万用户加入了“QuitGPT 运动”。很快，Claude 跃升至 Apple App Store 榜首。据报道，本周每日注册量每天都在打破纪录。自 1 月以来，免费用户增长了 60% 以上。付费订阅者今年翻了一番。

收入数字讲述了同样的故事。Bloomberg 报道称，Anthropic 达到了 190 亿美元的年化收入运行率——高于 2025 年底的 90 亿美元。甚至在 Anthropic 失去政府合同之前，Claude Code 在九个月内报告的年化账单金额在 0 到 25 亿美元之间。

Anthropic 把被美国政府列入黑名单变成了一场轰动的营销事件。

往期回顾

Perplexity Computer 惊艳，Karpathy 终结氛围编程，OpenAI 在五角大楼取代 Anthropic

Claude Code 登陆 Roadmap，OpenClaw 失去负责人，以及 AI 工作膨胀

GPT-5.4 发布，AI 重塑职场，Claude 用户激增

OpenAI 发布 GPT-5.4，Codex 用户达 160 万

AI 正以意想不到的方式重塑就业

CLI 正在为智能体重构

智能体编排正成为关键层

OpenAI 陷入危机管控，Anthropic 打破纪录

往期回顾

概念速查

相关文章

Simon Willison 调研四大 LLM 的 HTTP API

Skill0：通过上下文智能体强化学习实现技能内化

评论