GPT-5.4 发布,AI 重塑职场,Claude 用户激增

深度The New Stack2026年3月7日5 分钟阅读
GPT-5.4 发布,AI 重塑职场,Claude 用户激增
OpenAI 推出 GPT-5.4,在真实任务测试中达到 83% 的专业匹配率。Anthropic 研究发现 AI 对就业的实际影响远低于理论预期,而五角大楼争议后,Claude 用户数创下新高。

我是 Matt Burns,Insight Media Group 的编辑总监。每周我会汇总最重要的 AI 进展——不只是头条新闻,还有这些进展对实际应用这项技术的人和组织的意义。核心观点很简单:学会使用 AI 的从业者将定义各自行业的下一阶段,这份简报旨在助你成为其中一员。


OpenAI 发布 GPT-5.4,Codex 用户达 160 万

OpenAI 这周很忙。周四,它推出了 GPT-5.4,这是其前沿模型的新版本。公司称其为“面向专业工作最强大、最高效的前沿模型”。它结合了 GPT-5.3-Codex 的编码能力,并增强了对电子表格、文档和演示文稿的支持。

基准测试成绩亮眼:错误更少,虚假声明减少,在 GDPval 测试中得分 83%。该测试针对 44 种职业的真实世界任务评估模型,意味着它在 83% 的比较中匹配或超越了行业专业人士。Anthropic 的 Opus 4.6 在同一测试中得分 79.5%。

但 GPT-5.4 是 OpenAI 目前每 token 成本最高的模型;公司表示它在每个任务中消耗的 token 比其他模型少。

本周早些时候,OpenAI 终于在 Windows 上发布了 Codex。该应用专为 Windows 开发环境构建,支持原生沙箱和 Windows 开发者熟悉的工作流。The New Stack 本周报道称,OpenAI 的 Codex 现在拥有 160 万周活跃用户。

@systemticls 发布了一篇好文,探讨“智能体工程(Agentic Engineering)”在实际中是什么样子——读起来更像软件架构手册,而非提示指南。任务分解、反馈循环、安全护栏(Guardrails)、每一步的模型选择。那些最能发挥 Codex(和 Claude Code)价值的人,不是在写更好的提示,而是在设计更好的系统。

AI 正以意想不到的方式重塑就业

Anthropic 本周发布了一项新研究,引入了一个名为“实际暴露度”的衡量指标。它结合了理论上的 LLM 能力与实际使用数据。

发现是什么?AI 远未达到其理论能力。实际任务覆盖率仅为可行范围的一小部分。计算机程序员是暴露度最高的职业,但研究显示,自 2022 年以来,经济中其他高暴露度工人的失业率并未系统性上升。

研究指出了一个警示信号:有迹象表明,暴露度高的职业对 22 至 25 岁工人的招聘速度放缓。这表明工作并未消失,但谁能获得这些工作可能正在改变。

Towards Data Science 上的一篇新文章更详细地论证了这种转变。Favio Vazquez 认为,技术的递归进步不等于采用的递归加速。AI 模型以软件速度改进,但现实世界受基础设施、法规和组织变革的制约。Vazquez 指出,工作并未消失,而是围绕系统设计、战略和判断进行重组。

Kevin Rose 说得对:如果智能体(Agent)能写代码,价值就转移到知道该构建什么上。这就是现在的工作。

CLI 正在为智能体重构

Google 悄然发布了 gws,这是一个用于所有 Google Workspace(Gmail、Drive、Calendar、Docs、Sheets 等)的统一 CLI。它拥有 40 多个智能体技能(Skills)并支持 MCP。但有趣的部分在于设计:它是从 Google 的 Discovery Service 自动生成的,因此始终匹配当前的 API 接口。每个命令都返回结构化的 JSON。每个模式都可内省。这不是为偶尔自动化的人类设计的工具,而是为智能体设计的工具。

gws 的负责人 Justin Poehnelt 写了一篇文章,精准地命名了这种转变:“智能体开发者体验(Agent DX)”与“人类开发者体验(Human DX)”。他认为,我们所知的良好 CLI 设计原则——可发现性、渐进式披露、有用的错误信息——对智能体来说完全是错的。智能体需要可预测性、结构化输出、明确的失败和零交互提示。他列出了七条原则,值得一读。

Anthropic 的 Dickson Tsai 本周也宣布了 Claude Code 的 HTTP 钩子。这是另一个迹象,表明开发者工具正将智能体作为一等公民来设计,而非事后补充。

这个模式对任何构建内部工具的人都至关重要。如果你的 CLI 仍为人类输出漂亮的表格,那已经落后了。

智能体编排正成为关键层

单个智能体能完成工作。但仍需要有人来当经理。本周有两个开源项目发布,试图做到这一点。

OpenAI 发布了 Symphony,它监控工作队列——从 Linear 看板开始——拾取任务,在隔离环境中生成智能体执行任务,运行测试,并提交 PR。这是一个永不休息的项目经理。架构是模块化的:可以换用不同的 LLM 提供商、不同的项目管理工具、不同的 CI 流水线。

Paperclip 走得更远。它是一个用于管理整个智能体组织的框架,包括组织结构图、预算、支出限制和治理规则。每个智能体都有一个角色和一套工具。系统在整个操作过程中跟踪 token 成本。

两者都处于早期阶段。两者都有明显的不足。但它们展示了未来更好的智能体管理的编排(Orchestration)层。这是一个值得关注的重要层面。那些弄清楚如何构建智能体团队、定义边界并保持质量控制的公司将快速领先。

OpenAI 陷入危机管控,Anthropic 打破纪录

上周,五角大楼踢走了 Anthropic,几小时后与 OpenAI 签约。本周,OpenAI 负责人 Sam Altman 正在处理公关余波,而 Anthropic 则收到了正式的供应链风险文件。

周四,Anthropic CEO Dario Amodei 证实,战争部将 Anthropic 指定为国家安全供应链风险。公司表示该指定范围狭窄——仅适用于 Claude 在战争部合同直接部分的使用,而非承包商对 Claude 的所有使用。Amodei 表示公司将通过法律途径挑战该指定。他还为一份泄露的内部备忘录道歉,称其中的简洁措辞并非其真实观点的反映。他在发布的声明中语气缓和,表示 Anthropic 将在过渡期间继续以名义成本向战争部和国家安全界提供模型。他强调 Anthropic“与战争部的共同点远多于分歧”。

更广泛的余波对 OpenAI 打击更大。在 OpenAI 与五角大楼的新协议宣布前,已有超过 300 名 Google 员工和 60 名 OpenAI 员工签署公开信支持 Anthropic 的立场。协议公布后,OpenAI 旧金山办公室外出现了粉笔字:“你们的红线在哪里?” Altman 承认协议“看起来机会主义且草率”,并在 3 月 4 日告诉员工他“为让他们承受反弹感到糟糕”。几天内,OpenAI 修改了合同,增加了原合同中缺失的明确监控保护条款。

损害已经造成。大约250 万用户加入了“QuitGPT 运动”。很快,Claude 跃升至 Apple App Store 榜首。据报道,本周每日注册量每天都在打破纪录。自 1 月以来,免费用户增长了 60% 以上。付费订阅者今年翻了一番。

收入数字讲述了同样的故事。Bloomberg 报道称,Anthropic 达到了 190 亿美元的年化收入运行率——高于 2025 年底的 90 亿美元。甚至在 Anthropic 失去政府合同之前,Claude Code 在九个月内报告的年化账单金额在 0 到 25 亿美元之间。

Anthropic 把被美国政府列入黑名单变成了一场轰动的营销事件。


往期回顾

Perplexity Computer 惊艳,Karpathy 终结氛围编程,OpenAI 在五角大楼取代 Anthropic

Claude Code 登陆 Roadmap,OpenClaw 失去负责人,以及 AI 工作膨胀

TRENDING STORIES

Group Created with Sketch.

觉得有用?分享给更多人

获取每周 AI 工具精选

工具推荐、实战教程和生态洞察,每周更新。

相关文章

Simon Willison 正在重构 LLM Python 库的抽象层,以支持服务器端工具执行等新功能。他利用 Claude Code 分析了四大 LLM 提供商的客户端库,生成了用于测试的 curl 命令和 JSON 输出。这些调研材料已开源,旨在帮助设计更通用的 API 抽象。

深度Simon Willison·4月5日·1 分钟

智能体技能——包含程序性知识和可执行资源的结构化包,供智能体在推理时动态加载——已成为增强 LLM 智能体的可靠机制。然而,推理时技能增强存在根本性限制:检索噪声引入无关指导,注入的技能内容带来大量 token 开销,而模型从未真正习得它所遵循的知识。我们提出一个问题:技能是否可以被内化到模型参数中,使其在无需任何运行时技能检索的情况下实现零样本自主行为?我们提出 Skill0,一个专为技能内化设计的上下文强化学习框架。Skill0 引入了一种训练时课程,从提供完整技能上下文开始,逐步撤除。技能按类别离线分组,并与交互历史一起渲染为紧凑的视觉上下文,教授模型工具调用和多轮任务完成。动态课程机制…

深度·4月5日·17 分钟

评论