GPT-5.4 发布,AI 重塑职场,Claude 用户激增

我是 Matt Burns,Insight Media Group 的编辑总监。每周我会汇总最重要的 AI 进展——不只是头条新闻,还有这些进展对实际应用这项技术的人和组织的意义。核心观点很简单:学会使用 AI 的从业者将定义各自行业的下一阶段,这份简报旨在助你成为其中一员。
OpenAI 发布 GPT-5.4,Codex 用户达 160 万
OpenAI 这周很忙。周四,它推出了 GPT-5.4,这是其前沿模型的新版本。公司称其为“面向专业工作最强大、最高效的前沿模型”。它结合了 GPT-5.3-Codex 的编码能力,并增强了对电子表格、文档和演示文稿的支持。
基准测试成绩亮眼:错误更少,虚假声明减少,在 GDPval 测试中得分 83%。该测试针对 44 种职业的真实世界任务评估模型,意味着它在 83% 的比较中匹配或超越了行业专业人士。Anthropic 的 Opus 4.6 在同一测试中得分 79.5%。
但 GPT-5.4 是 OpenAI 目前每 token 成本最高的模型;公司表示它在每个任务中消耗的 token 比其他模型少。
本周早些时候,OpenAI 终于在 Windows 上发布了 Codex。该应用专为 Windows 开发环境构建,支持原生沙箱和 Windows 开发者熟悉的工作流。The New Stack 本周报道称,OpenAI 的 Codex 现在拥有 160 万周活跃用户。
@systemticls 发布了一篇好文,探讨“智能体工程(Agentic Engineering)”在实际中是什么样子——读起来更像软件架构手册,而非提示指南。任务分解、反馈循环、安全护栏(Guardrails)、每一步的模型选择。那些最能发挥 Codex(和 Claude Code)价值的人,不是在写更好的提示,而是在设计更好的系统。
AI 正以意想不到的方式重塑就业
Anthropic 本周发布了一项新研究,引入了一个名为“实际暴露度”的衡量指标。它结合了理论上的 LLM 能力与实际使用数据。
发现是什么?AI 远未达到其理论能力。实际任务覆盖率仅为可行范围的一小部分。计算机程序员是暴露度最高的职业,但研究显示,自 2022 年以来,经济中其他高暴露度工人的失业率并未系统性上升。
研究指出了一个警示信号:有迹象表明,暴露度高的职业对 22 至 25 岁工人的招聘速度放缓。这表明工作并未消失,但谁能获得这些工作可能正在改变。
Towards Data Science 上的一篇新文章更详细地论证了这种转变。Favio Vazquez 认为,技术的递归进步不等于采用的递归加速。AI 模型以软件速度改进,但现实世界受基础设施、法规和组织变革的制约。Vazquez 指出,工作并未消失,而是围绕系统设计、战略和判断进行重组。
Kevin Rose 说得对:如果智能体(Agent)能写代码,价值就转移到知道该构建什么上。这就是现在的工作。
CLI 正在为智能体重构
Google 悄然发布了 gws,这是一个用于所有 Google Workspace(Gmail、Drive、Calendar、Docs、Sheets 等)的统一 CLI。它拥有 40 多个智能体技能(Skills)并支持 MCP。但有趣的部分在于设计:它是从 Google 的 Discovery Service 自动生成的,因此始终匹配当前的 API 接口。每个命令都返回结构化的 JSON。每个模式都可内省。这不是为偶尔自动化的人类设计的工具,而是为智能体设计的工具。
gws 的负责人 Justin Poehnelt 写了一篇文章,精准地命名了这种转变:“智能体开发者体验(Agent DX)”与“人类开发者体验(Human DX)”。他认为,我们所知的良好 CLI 设计原则——可发现性、渐进式披露、有用的错误信息——对智能体来说完全是错的。智能体需要可预测性、结构化输出、明确的失败和零交互提示。他列出了七条原则,值得一读。
Anthropic 的 Dickson Tsai 本周也宣布了 Claude Code 的 HTTP 钩子。这是另一个迹象,表明开发者工具正将智能体作为一等公民来设计,而非事后补充。
这个模式对任何构建内部工具的人都至关重要。如果你的 CLI 仍为人类输出漂亮的表格,那已经落后了。
智能体编排正成为关键层
单个智能体能完成工作。但仍需要有人来当经理。本周有两个开源项目发布,试图做到这一点。
OpenAI 发布了 Symphony,它监控工作队列——从 Linear 看板开始——拾取任务,在隔离环境中生成智能体执行任务,运行测试,并提交 PR。这是一个永不休息的项目经理。架构是模块化的:可以换用不同的 LLM 提供商、不同的项目管理工具、不同的 CI 流水线。
Paperclip 走得更远。它是一个用于管理整个智能体组织的框架,包括组织结构图、预算、支出限制和治理规则。每个智能体都有一个角色和一套工具。系统在整个操作过程中跟踪 token 成本。
两者都处于早期阶段。两者都有明显的不足。但它们展示了未来更好的智能体管理的编排(Orchestration)层。这是一个值得关注的重要层面。那些弄清楚如何构建智能体团队、定义边界并保持质量控制的公司将快速领先。
OpenAI 陷入危机管控,Anthropic 打破纪录
上周,五角大楼踢走了 Anthropic,几小时后与 OpenAI 签约。本周,OpenAI 负责人 Sam Altman 正在处理公关余波,而 Anthropic 则收到了正式的供应链风险文件。
周四,Anthropic CEO Dario Amodei 证实,战争部将 Anthropic 指定为国家安全供应链风险。公司表示该指定范围狭窄——仅适用于 Claude 在战争部合同直接部分的使用,而非承包商对 Claude 的所有使用。Amodei 表示公司将通过法律途径挑战该指定。他还为一份泄露的内部备忘录道歉,称其中的简洁措辞并非其真实观点的反映。他在发布的声明中语气缓和,表示 Anthropic 将在过渡期间继续以名义成本向战争部和国家安全界提供模型。他强调 Anthropic“与战争部的共同点远多于分歧”。
更广泛的余波对 OpenAI 打击更大。在 OpenAI 与五角大楼的新协议宣布前,已有超过 300 名 Google 员工和 60 名 OpenAI 员工签署公开信支持 Anthropic 的立场。协议公布后,OpenAI 旧金山办公室外出现了粉笔字:“你们的红线在哪里?” Altman 承认协议“看起来机会主义且草率”,并在 3 月 4 日告诉员工他“为让他们承受反弹感到糟糕”。几天内,OpenAI 修改了合同,增加了原合同中缺失的明确监控保护条款。
损害已经造成。大约250 万用户加入了“QuitGPT 运动”。很快,Claude 跃升至 Apple App Store 榜首。据报道,本周每日注册量每天都在打破纪录。自 1 月以来,免费用户增长了 60% 以上。付费订阅者今年翻了一番。
收入数字讲述了同样的故事。Bloomberg 报道称,Anthropic 达到了 190 亿美元的年化收入运行率——高于 2025 年底的 90 亿美元。甚至在 Anthropic 失去政府合同之前,Claude Code 在九个月内报告的年化账单金额在 0 到 25 亿美元之间。
Anthropic 把被美国政府列入黑名单变成了一场轰动的营销事件。
往期回顾
Perplexity Computer 惊艳,Karpathy 终结氛围编程,OpenAI 在五角大楼取代 Anthropic
TRENDING STORIES
Group Created with Sketch.
觉得有用?分享给更多人