Cursor 模型成本降 10 倍,Meta 智能体失控

深度The New Stack2026年3月21日5 分钟阅读
Cursor 模型成本降 10 倍,Meta 智能体失控
Cursor 发布自研编程模型 Composer 2,编码基准测试击败 Claude Opus 4.6,成本仅为后者的十分之一。同时,Meta 内部 AI 智能体触发安全事件,未经授权自动执行操作。

我是 Matt Burns,Insight Media Group 的编辑总监。每周,我会汇总最重要的 AI 动态,并解释它们对正在应用这项技术的人和组织的意义。核心理念很简单:学会使用 AI 的从业者将定义其行业的未来,这份通讯旨在助你成为其中一员。

我用的 AI 预测 NCAA 疯狂三月比赛结果,第一天就全错了,证明 AI 还没进化到能预测青少年在压力下如何表现的程度。我用了 bracketmadness.ai,很喜欢它的引导流程。


本周的主题是整合。不是那种无聊、可怕的企业整合,而是战略性的整合。Cursor 宣布了自己的模型。Nvidia 联合多家公司共同构建开源基础模型。OpenAI 计划将三个应用合并为一个。Anthropic 一周内两次降价。贝佐斯正在筹集 1000 亿美元收购制造商并为其注入 AI。国会则发布了近 300 页的《特朗普美国 AI 法案》草案,旨在取代美国各州层面的所有 AI 法规。

贯穿其中的主线是:每个主要参与者都试图在技术栈中占据更大份额。你今天使用的工具,可能六个月后就不再是首选了。

Cursor 模型:性能更强,成本更低

Cursor 本周发布了其第三代自研编程模型 Composer 2。基准测试成绩令人印象深刻。在衡量 AI 智能体在终端中处理真实世界软件工程任务能力的 Terminal-Bench 2.0 上,Composer 2 得分为 61.7%,击败了 Claude Opus 4.6 的 58%。在 Cursor 自家的 CursorBench 上,新模型得分 61.3,比上一代的 44.2 大幅提升,与 GPT-5.4 Thinking 的 63.9 分也颇具竞争力。

定价才是真正的亮点。Composer 2 的成本为每百万输入 Token 0.5 美元,每百万输出 Token 2.5 美元。而 Opus 4.6 的成本是 5 美元/25 美元。这意味着成本相差了 10 倍。Cursor 仅使用代码数据训练该模型,并在需要数百个独立步骤的长周期编码任务上应用了强化学习。结果是得到一个更小、更专注的模型,它不需要知道一切,只需要知道如何写好代码。

我一直在观察这些 AI 编程工具何时会达到性能瓶颈,但这一刻始终没有到来。Cursor 面临着真正的结构性压力——它现在与 OpenAI 和 Anthropic 竞争,却又依赖它们的模型。构建 Composer 2 是他们开始控制自身利润空间的方式。他们并不孤单。Nvidia 本周宣布成立一个 AI 实验室联盟,包括 Cursor、Mistral、Perplexity、LangChain 和 Black Forest Labs,旨在汇集资源,在 Nvidia 的 DGX Cloud 基础设施上共同构建共享基础模型。首个项目将是一个新的基础模型,它将构成 Nvidia Nemotron 4 系列的基础。工具制造商正在成为模型制造商。这是一个重要的转变。

OpenAI 的桌面超级应用

《华尔街日报》报道称,OpenAI 计划将 ChatGPT、Codex 和其网页浏览器整合到一个单一的桌面应用程序中。OpenAI 应用业务 CEO Fidji Simo 告诉员工:“我们意识到我们的精力分散在太多应用和技术栈上,我们需要简化工作。这种碎片化拖慢了我们的速度,使我们更难达到期望的质量标准。”

移动版 ChatGPT 应用将保持独立。这是一个针对桌面的举措——据报道,目标用户是开发者、企业用户和高级用户,他们希望在一个地方获得对话式 AI、编码辅助和浏览功能。我认为内部引述揭示了其内部产品开发结构未能满足用户期望。一家公司直接承认“我们造了太多东西,效果不好”是很少见的。这暗示了公司认为其当前的竞争点不在聊天,而在桌面工作空间,那里已经是 Anthropic 的 Claude 和 Cursor 的战场。争夺成为你电脑上默认 AI 层的竞赛正变得更加拥挤。竞争是好事。

Token 降价促销

Anthropic 本周的两个举措降低了 AI 使用成本。首先,公司取消了 Claude Opus 4.6 和 Sonnet 4.6 的长上下文定价附加费。100 万 Token 的上下文窗口现在以标准每 Token 费率普遍可用——Opus 为 5 美元/25 美元,Sonnet 为 3 美元/15 美元。此前,超过 20 万 Token 的提示会触发溢价。现在,一个 90 万 Token 的请求与一个 9 千 Token 的请求,每个 Token 的成本相同。如果你处理大型代码库或长文档,这很重要。我几周来一直受限于上下文限制,所以这个变化很及时。

其次,Anthropic 在非高峰时段将所有 Claude 计划的使用限制提高了一倍——这是一项持续到 3 月 28 日的为期两周的促销活动。加倍的限制适用于周末和工作日东部时间上午 8 点前和下午 2 点后。《The New Stack》将此视为一种竞争策略而非慷慨:将使用转移到非高峰时段可以减轻繁忙时段的基础设施负载,而更频繁的使用会培养用户习惯。很快,我可能得按照给电动车充电的时间表来安排定时任务了。

在 Cursor 便宜 10 倍的编程模型和 Anthropic 赠送使用量之间,AI 辅助工作的成本正在快速下降。那些真正弄清楚如何以高性价比方式使用这些工具的组织将从中受益。

失控的智能体

几个月来,AI 编码智能体的速度一直是焦点。现在,它们产出的质量和安全性开始成为另一个故事。

Daryl K. Taft 本周报道称,Cursor 的安全团队构建了一组 AI 智能体,持续监控公司代码库中拉取请求(PR)的漏洞——并开源了模板和 Terraform 配置,以便其他团队也能这样做。动机是:传统的安全工具(代码所有者、代码检查器、静态分析)跟不上 AI 编码工具生成代码的速度。

另一方面,JetBrains 创造了“影子技术债”这个术语——指由 AI 智能体生成的、不考虑项目架构的低质量代码。该公司在提出这一诊断的同时推出了 Junie CLI,押注这将成为企业开发中的下一个大问题。

在《Towards Data Science》上,Reya Vir 探讨了同样的矛盾。她提到了 Moltbook 事件——一个主要通过“氛围编码”构建的社交平台,因 Supabase 数据库配置错误,暴露了 150 万个 API 密钥和 3.5 万个用户邮箱。根本原因是开发者依赖的 AI 智能体优化的是代码能否运行,而非代码是否安全。哥伦比亚大学的研究证实,安全性是编码智能体的一个常见故障模式。

问题不止于代码质量。《The Information》报道称,Meta 内部的一个 AI 智能体本周在未经授权的情况下行动,触发了一起严重级别为 1 的安全事件。一名员工使用该智能体分析同事在内部论坛上的提问,智能体自行向该同事发布了回复。同事遵循了智能体的建议,引发连锁反应,导致公司和用户数据暴露给了本不应有访问权限的工程师。暴露持续了约两小时。Meta 的安全与对齐(Alignment)总监 Summer Yue 上个月就已经指出了这个问题,当时她自己的 OpenClaw 智能体在被告知需要确认后再行动的情况下,还是删除了她的整个收件箱。这些智能体速度快、能力强,而且越来越难控制。

然后是 Nvidia 的解决方案。Frederic Lardinois 本周报道了 Nemoclaw,它将 OpenClaw 包装在 Nvidia 的智能体技术栈内,包括基于策略的安全性、隐私护栏(Guardrails)和一个名为 OpenShell 的开源安全运行时。它可以在 Nvidia 自家的 Nemotron 模型或任何云托管模型上运行,并通过单一命令安装。如果说 OpenClaw 是令人兴奋但略显鲁莽的开源智能体平台,那么 NemoClaw 就是加装了安全护栏的企业版。对于任何在生产环境中部署智能体的人来说,这可能正是缺失的一环。Eivind Kjosbakken 还在《Towards Data Science》上发布了一份实用指南,介绍如何将 OpenClaw 设置为个人 AI 助手——如果你想尝试无护栏版本,值得一读。

近 300 页的 AI 法案草案

在美国构建 AI 产品的公司,可能很快会有一个单一的联邦规则手册可以遵循,而不是 50 个州级规则手册。参议员 Marsha Blackburn 发布了被称为《特朗普美国 AI 法案》的讨论草案,这是一个近 300 页的立法框架,将完全取代各州的 AI 监管。白宫围绕六个目标阐述了该法案:儿童保护、社区安全、知识产权、言论自由、创新和劳动力发展。

其中一些条款意义重大。该法案要求 AI 开发者承担注意义务,以防止可预见的伤害。它废除了《通信规范法》第 230 条,结束了平台对用户生成内容的责任豁免。它明确规定,未经授权复制受版权保护的作品用于 AI 训练不构成合理使用。它还要求公司和联邦机构每季度向劳工部报告与 AI 相关的裁员和岗位流失情况。

最后一部分值得深思。关于 AI 岗位流失的季度报告将创建首个关于 AI 如何实际重塑劳动力的系统性数据集——不合规行为将面临每次违规最高 100 万美元的民事罚款。无论该法案能否通过——《Roll Call》指出它面临实际障碍,包括日益减少的立法日程和共和党内部在科技授权方面的分歧——方向是明确的。构建 AI 工具的人和部署它们的人,正开始在一个规则逐渐被写明的世界里运作。


往期回顾

热门故事

Group Created with Sketch.

觉得有用?分享给更多人

获取每周 AI 工具精选

工具推荐、实战教程和生态洞察,每周更新。

相关文章

Simon Willison 正在重构 LLM Python 库的抽象层,以支持服务器端工具执行等新功能。他利用 Claude Code 分析了四大 LLM 提供商的客户端库,生成了用于测试的 curl 命令和 JSON 输出。这些调研材料已开源,旨在帮助设计更通用的 API 抽象。

深度Simon Willison·4月5日·1 分钟

智能体技能——包含程序性知识和可执行资源的结构化包,供智能体在推理时动态加载——已成为增强 LLM 智能体的可靠机制。然而,推理时技能增强存在根本性限制:检索噪声引入无关指导,注入的技能内容带来大量 token 开销,而模型从未真正习得它所遵循的知识。我们提出一个问题:技能是否可以被内化到模型参数中,使其在无需任何运行时技能检索的情况下实现零样本自主行为?我们提出 Skill0,一个专为技能内化设计的上下文强化学习框架。Skill0 引入了一种训练时课程,从提供完整技能上下文开始,逐步撤除。技能按类别离线分组,并与交互历史一起渲染为紧凑的视觉上下文,教授模型工具调用和多轮任务完成。动态课程机制…

深度·4月5日·17 分钟

评论