Cursor Composer 2 性能超 Opus 4.6,成本仅几分之一

Cursor 周四发布了 Composer 2,这是其自研编码模型的第三代版本。该模型在一些关键编码基准测试上超越了 Anthropic 的 Opus 4.6,而成本仅为后者的一小部分。
新的 Cursor 模型成本低至每百万输入 token 0.5 美元,每百万输出 token 2.5 美元。还有一个快速模式,将作为默认选项,但价格是 3 倍,为每百万输入/输出 token 1.5/7.5 美元。快速模式提供相同的智能水平,只是价格更高。
相比之下,Opus 4.6 的成本是 5/25 美元,OpenAI 的 GPT-5.4 是 2.5/15 美元。

图片来源:Cursor。
在 Terminal-Bench 2.0 基准测试中,该模型得分为 61.7%,超越了 Anthropic Claude Opus 4.6 的 58.0%。虽然仍远落后于 OpenAI GPT-5.4 的 75.1%,但这显示了 Cursor 在加速自身模型项目的同时,如何快速追赶竞争对手。
由于 Cursor 是模型无关的,开发者可以选择运行哪个模型,或使用 Cursor 的自动模式,该模式根据智能、速度和成本之间的权衡选择最佳模型。

图片来源:Cursor。
5 个月,3 代模型
Composer 2 是自 10 月以来的第三个 Composer 版本。Cursor 在 2025 年 10 月发布了原始 Composer 模型及其 2.0 平台重新设计。Composer 1.5 于今年 2 月发布,当时在 Terminal-Bench 2.0 上仍落后 Opus 4.6 10%。
之前的 Composer 模型将强化学习应用于现有基础模型,而不修改基础本身。Cursor 指出,Composer 2 是第一个运行持续预训练的版本,公司称这提供了“一个更强大的基础来扩展我们的强化学习”。
训练模型压缩自身记忆
这个新模型的关键技术创新是 Cursor 称为“自总结”的训练技术。“我们通过一个称为自总结的强化学习过程训练 Composer 处理长视野任务。通过将自总结作为 Composer 训练的一部分,我们可以从比模型最大上下文窗口长得多的轨迹中获得训练信号,”公司在公告中写道。

图片来源:Cursor。
智能体编码往往会产生长的操作历史,迅速超过模型的上下文窗口。传统上,像 Cursor 这样的公司使用压缩技术,要么创建模型先前工作的紧凑文本摘要,要么使用滑动上下文窗口,丢弃较旧的上下文以支持更近的工作。
“这些压缩方法的共同缺点是可能导致模型忘记上下文中的关键信息,降低其在长运行任务中的效率,”Cursor 认为。
Cursor 的方法,团队称为循环内压缩强化学习,将总结直接构建到训练循环中。当生成达到 token 长度触发点时,模型暂停并将其自身上下文压缩到大约 1,000 个 token,而传统方法可能需要 5,000 或更多。由于团队在训练模型时使用的强化学习奖励覆盖了整个链,包括总结步骤,模型学会了保留哪些细节和丢弃哪些细节。
根据 Cursor 的研究文章,自总结将压缩误差降低了 50%。
觉得有用?分享给更多人