Cursor Composer 2 性能超 Opus 4.6,成本仅几分之一

深度The New Stack2026年3月19日3 分钟阅读
Cursor Composer 2 性能超 Opus 4.6,成本仅几分之一
Cursor 发布 Composer 2,在 Terminal-Bench 2.0 编码基准测试中以 61.7% 的得分超越 Anthropic Claude Opus 4.6。关键创新在于自总结训练技术,将上下文压缩误差降低了 50%。

Cursor 周四发布了 Composer 2,这是其自研编码模型的第三代版本。该模型在一些关键编码基准测试上超越了 Anthropic 的 Opus 4.6,而成本仅为后者的一小部分。

新的 Cursor 模型成本低至每百万输入 token 0.5 美元,每百万输出 token 2.5 美元。还有一个快速模式,将作为默认选项,但价格是 3 倍,为每百万输入/输出 token 1.5/7.5 美元。快速模式提供相同的智能水平,只是价格更高。

相比之下,Opus 4.6 的成本是 5/25 美元,OpenAI 的 GPT-5.4 是 2.5/15 美元。

图片来源:Cursor。

Terminal-Bench 2.0 基准测试中,该模型得分为 61.7%,超越了 Anthropic Claude Opus 4.6 的 58.0%。虽然仍远落后于 OpenAI GPT-5.4 的 75.1%,但这显示了 Cursor 在加速自身模型项目的同时,如何快速追赶竞争对手。

由于 Cursor 是模型无关的,开发者可以选择运行哪个模型,或使用 Cursor 的自动模式,该模式根据智能、速度和成本之间的权衡选择最佳模型。

图片来源:Cursor。

5 个月,3 代模型

Composer 2 是自 10 月以来的第三个 Composer 版本。Cursor 在 2025 年 10 月发布了原始 Composer 模型及其 2.0 平台重新设计。Composer 1.5 于今年 2 月发布,当时在 Terminal-Bench 2.0 上仍落后 Opus 4.6 10%。

之前的 Composer 模型将强化学习应用于现有基础模型,而不修改基础本身。Cursor 指出,Composer 2 是第一个运行持续预训练的版本,公司称这提供了“一个更强大的基础来扩展我们的强化学习”。

训练模型压缩自身记忆

这个新模型的关键技术创新是 Cursor 称为“自总结”的训练技术。“我们通过一个称为自总结的强化学习过程训练 Composer 处理长视野任务。通过将自总结作为 Composer 训练的一部分,我们可以从比模型最大上下文窗口长得多的轨迹中获得训练信号,”公司在公告中写道。

图片来源:Cursor。

智能体编码往往会产生长的操作历史,迅速超过模型的上下文窗口。传统上,像 Cursor 这样的公司使用压缩技术,要么创建模型先前工作的紧凑文本摘要,要么使用滑动上下文窗口,丢弃较旧的上下文以支持更近的工作。

“这些压缩方法的共同缺点是可能导致模型忘记上下文中的关键信息,降低其在长运行任务中的效率,”Cursor 认为。

Cursor 的方法,团队称为循环内压缩强化学习,将总结直接构建到训练循环中。当生成达到 token 长度触发点时,模型暂停并将其自身上下文压缩到大约 1,000 个 token,而传统方法可能需要 5,000 或更多。由于团队在训练模型时使用的强化学习奖励覆盖了整个链,包括总结步骤,模型学会了保留哪些细节和丢弃哪些细节。

根据 Cursor 的研究文章,自总结将压缩误差降低了 50%。

觉得有用?分享给更多人

获取每周 AI 工具精选

工具推荐、实战教程和生态洞察,每周更新。

相关文章

Simon Willison 正在重构 LLM Python 库的抽象层,以支持服务器端工具执行等新功能。他利用 Claude Code 分析了四大 LLM 提供商的客户端库,生成了用于测试的 curl 命令和 JSON 输出。这些调研材料已开源,旨在帮助设计更通用的 API 抽象。

深度Simon Willison·4月5日·1 分钟

智能体技能——包含程序性知识和可执行资源的结构化包,供智能体在推理时动态加载——已成为增强 LLM 智能体的可靠机制。然而,推理时技能增强存在根本性限制:检索噪声引入无关指导,注入的技能内容带来大量 token 开销,而模型从未真正习得它所遵循的知识。我们提出一个问题:技能是否可以被内化到模型参数中,使其在无需任何运行时技能检索的情况下实现零样本自主行为?我们提出 Skill0,一个专为技能内化设计的上下文强化学习框架。Skill0 引入了一种训练时课程,从提供完整技能上下文开始,逐步撤除。技能按类别离线分组,并与交互历史一起渲染为紧凑的视觉上下文,教授模型工具调用和多轮任务完成。动态课程机制…

深度·4月5日·17 分钟

评论