Cursor 与 Together AI 如何实现低延迟推理

Cursor 是一个具备持续后台智能的 AI 编程平台,由一支训练智能体编码模型并直接部署到生产环境的研究团队打造。开发者在编辑器中输入代码时,Cursor 会实时维护代码上下文模型——预测编辑操作、重构代码、管理上下文状态。
要提供这种体验,必须在编辑器的反馈循环内完成响应。这一约束将服务问题从批处理模式转向实时、低延迟推理。Cursor 与 AI 原生云服务商 Together AI 合作,为这个循环构建基础设施——采用 NVIDIA Blackwell 架构,并对推理栈进行调优以满足严格的延迟目标。
编辑器内的延迟为何不同
编辑器内智能体在开发者持续编辑时生成输出,因此时机决定了建议是否能落在模型生成时使用的同一局部上下文中。一旦开发者切换到代码的其他区域,输出往往就不再与原本要支持的状态对齐。
在 Cursor 中,这些智能体在开发者继续工作的同时调试问题、生成功能、执行重构。这种工作负载要求在高并发下具备可预测的最坏情况延迟、跨重叠请求的一致上下文处理,以及在持续负载下的稳定运行。
在 NVIDIA Blackwell 上的工程实践
为满足大规模下的延迟预算,团队选择了 NVIDIA Blackwell GB200 NVL72 和 NVIDIA HGX™ B200,凭借更高的内存带宽和张量吞吐量来支持更快的服务。在生命周期早期部署生产工作负载意味着要在整个栈——硬件、固件、主机软件和服务层——推动可靠性和优化。
- 基于 NVIDIA Blackwell 的前沿基础设施:Together AI 与 Cursor 合作,推动并参与了 NVIDIA Blackwell 的早期部署。对 Cursor 而言,早期硬件访问是产品优势,Together 的工程师致力于快速升级和更换硬件,以交付这一新的前沿基础设施。这些努力让 Cursor 能够快速、可靠地使用这些新芯片。
- 在 ARM 主机上实现全吞吐:GB200 NVL72 将 GPU 与基于 ARM 指令集的 NVIDIA Grace™ CPU 配对。许多高性能推理生态系统默认使用 x86 主机。将推理栈移植到 ARM 需要对 GB200 NVL72 进行内核和主机级调优。
- 为 Blackwell Tensor Core 定制内核:Blackwell 引入了针对低精度格式优化的新 Tensor Core 指令。Together AI 为 Blackwell 构建了内核,直接针对这些指令,以捕获更多硬件吞吐量。
- 跨 NVIDIA GB200 NVL72 的高效并行:GB200 NVL72 以全互联拓扑连接 72 个 NVIDIA Blackwell GPU。将模型分布在这个域中会增加芯片间的通信和同步开销。Together 为 GB200 NVL72 设计了并行网格,使协调成本保持有界——计算增益得以传递到推理中。
缩短从权重到生产的周期
Cursor 的研究团队内部训练模型——结合专有数据和针对编码工作流的定向优化——并产生新的候选权重。与 Together AI 的合作建立了一条可重复的路径,将这些权重移动到类似生产的端点进行即时测试。
这条路径中的一个关键步骤是量化(Quantization)。实时服务运行在严格的内存和计算预算上,量化通过用更少的比特表示权重来减少两者。在编码上下文中,质量下降可能表现为细微的逻辑错误或语法错误,因此量化必须在改善延迟和成本的同时保持输出质量。
Together AI 实现了一个围绕 NVIDIA TensorRT LLM 和 Blackwell 上的 NVFP4 构建的量化流水线——在激进压缩和 Cursor 编码模型所需的质量门槛之间找到平衡。当 Cursor 产生新的候选模型时,Together 会对其进行量化、验证,并在几天内启动测试端点。Cursor 运行内部评估套件,然后在生产流量下进行 A/B 测试,最后完成切换。切换操作由验证和实时流量检查把关。

下一步:从延迟到吞吐量
Cursor 的生产部署在多个数据中心的 NVIDIA Blackwell GPU 上运行。NVIDIA GB200 NVL72 处理推理,基础设施支持模型迭代,因为 Cursor 的研究团队会不断发布新的权重。
随着这条延迟路径在生产中运行,重点转向吞吐量和利用率。Cursor 和 Together AI 正在 NVIDIA Blackwell 平台上构建更高吞吐量的端点,以在用量增长时改善每 GPU 的经济性。
觉得有用?分享给更多人