Together AI 推理性能登顶,DeepSeek-R1 速度最快

今年早些时候,我们邀请了一些精选客户(包括 Zoom、Salesforce 和 InVideo)在 Together GPU 集群上试用了 NVIDIA Blackwell GPU。现在,我们很高兴地宣布,Together AI 正在为 Together Inference 推出 NVIDIA Blackwell 支持,为实际 AI 应用解锁了下一级别的性能。
结论很明确:Together AI 的推理服务现在跻身全球最快、能力最强的平台之一,能够大规模运行 DeepSeek-R1 等开源推理模型。这得益于其专为 NVIDIA HGX B200 设计的新推理引擎。
在这篇博文中,我们分享了在 NVIDIA HGX B200 上早期访问生产环境中部署 DeepSeek-R1-0528 的结果。截至 2025 年 7 月 17 日,这是已知最快的 DeepSeek-R1 无服务器推理性能。
你可以通过 Together Chat 立即体验这个速度。无服务器 NVIDIA HGX B200 端点目前处于封闭测试阶段,为我们的早期客户提供生产工作负载服务。请联系我们的销售团队,以便在我们扩大规模时成为首批获得访问权限的用户。
Together AI 优化了技术栈的每一层——(1) 定制的 GPU 内核,(2) 专门构建的专有推理引擎,(3) 最先进的推测解码方法,以及 (4) 经过校准和量化的模型优化——从而在不影响质量的情况下将 LLM 的速度和效率提升到新的高度。
图 1:来源:Artificial Analysis,2025年7月16日。参见其网站 https://artificialanalysis.ai/models/deepseek-r1/providers
图 2:来源:Artificial Analysis。2025年7月16日,TogetherAI 在 DeepSeek-R1-0528 上展示了行业领先的吞吐量和延迟。参见其网站 https://artificialanalysis.ai/models/deepseek-r1/providers
Together AI 为运行前沿 AI 工作负载的推理和训练提供了一套灵活的基础设施选项。无论你是扩大实验规模还是部署生产系统,你都可以选择适合你需求的控制级别和性能:
请联系我们,使用由 NVIDIA Blackwell GPU 加速的 Together AI 云服务进行构建。
Together 在 NVIDIA HGX B200 上的最先进推理
我们现在分析 Together 为 R1-0528 设计的推理堆栈相对于领先的开源推理引擎在 NVIDIA HGX B200 GPU 和上一代 NVIDIA H200 GPU 上的表现。如下图所示,Together 的推理堆栈配合我们内部的 Turbo 推测器,最高解码速度达到了约 334 令牌/秒,比不使用 Together 推理堆栈时的最高性能(约 302 令牌/秒)快了约 32 令牌/秒,并且比 H200 的速度快了 2.3 到 2.8 倍。关键的是,这些性能提升是在不牺牲模型质量的情况下实现的。
图 3:我们比较了 NVIDIA HGX B200 使用和不使用 Together 推理引擎,以及 HGX H200 不使用 Together 推理引擎的性能。为了规避附录中记录的质量下降问题,我们禁用了宽松推测器模式。有关基准测试详情,请参见脚注 [1]。
为你的需求定制专用端点
对于具有高性能生产需求的团队,专用端点(DEs)在我们默认的无服务器配置之外解锁了额外的优化层。通过 DEs,我们可以微调部署环境——实现高达约 84 令牌/秒的加速:在批次大小为 1 时从 302 令牌/秒提升到 386 令牌/秒,在批次大小为 8 时从 198 提升到 227,在批次大小为 32 时从 107 提升到 133,与不使用 Together 推理引擎的部署相比。这些改进在保持我们严格的质量-性能标准的同时,让客户对延迟-准确性的权衡有了更多控制。DEs 非常适合那些毫秒必争的生产工作负载,以及那些受益于为其特定需求量身定制基础设施的工作负载。
图 4:我们可以完全定制专用端点,通过平衡速度、质量和成本来优化特定工作负载。我们针对速度优化了此部署(在批次大小为 1 时达到 386 TPS),并以轻微的质量交换为代价。
推理优化入门
下面,我们分解了推动 Together 在 NVIDIA Blackwell 上实现行业领先性能的关键推理优化。
Together 推理引擎
推理引擎是一个关键的软件或硬件组件,负责执行训练好的 AI 模型以对新数据进行预测。在 Together,我们的推理引擎通过整合 Together AI 的最新进展实现了最先进的性能,包括 FlashAttention-3、更快的自定义 GEMM 和 MHA 内核、保持质量的量化以及推测解码。为了减少计算开销,我们将整个推理工作流程——从前缀填充到推测令牌验证——统一到单个、动态捕获的 NVIDIA CUDA 图中,并通过高效的计算-通信重叠和并行流编排来进一步提升效率。
Together 内核
GPU 内核是自定义开发的软件程序,在 GPU 上运行,执行关键的 AI 计算,如注意力机制和矩阵乘法。通过开发优化的内核,Together AI 可以解锁更快的推理速度——降低成本并提高效率。借助 NVIDIA B200 GPU,Together AI 开发了新的内核,以利用第五代 NVIDIA Tensor Cores 和片上 Tensor Memory。使用 ThunderKittens 框架,Together Kernels Lab 在获得硬件访问权限后的两周内构建并开源了与 NVIDIA 性能相匹配的 Blackwell GPU 内核。这延续了我们在开发推动效率最先进水平的内核方面的工作,从 Flash Attention 3 到用于视频的自定义稀疏注意力内核。
Together Turbo 推测器
推测解码是一项关键的优化,可显著加速大语言模型(LLMs)。通常,LLMs 顺序解码令牌,每个令牌都需要一次完整的模型前向传递。推测解码使用一个更小、更快的“推测器”模型来预测多个未来的令牌,然后由更大的“目标”模型并行验证。
理想的推测器是:
- 快速:通过更小和计算效率更高来最小化推测开销。
- 对齐良好:生成的预测与目标模型的输出紧密匹配,通过接受率来衡量。
Together Turbo 推测器通过利用我们研究团队在开发推测解码算法、训练高效模型架构、优化 GPU 性能以及策划高质量数据集方面获得的见解,超越了现有的开源推测器——甚至超过了 DeepSeek-R1-0528 自己的 14B 多令牌预测(MTP)模块。
我们内部的 Turbo 推测器使我们能够克服在 MTP 推测器中观察到的一个重要限制——其接受率随着推测前瞻(每次验证的推测令牌数量)的增加而显著下降(见下图)。如下图所示,Turbo 推测器在不同的每次解码步骤推测令牌数量下保持了更高的目标-推测器对齐度,从而实现了更快的整体速度。
图 5:我们在不同前瞻长度下比较了我们内部的 Turbo 推测器与 DeepSeek 的 MTP 推测器。我们的 Turbo 推测器在大前瞻长度下保持高接受率,从而持续获得更好的速度。
Together 无损量化
在 Together,我们开创了一种无损量化技术,在保持模型精度的同时,解锁了 NVFP4 和 MXFP4/6/8 格式的效率——即使在具有挑战性的注意力层中,其他方法也会失效。
NVIDIA HGX B200 引入了对超高效 4 位格式(如 NVFP4)的支持。我们的方法采用 W4A4 量化方案,利用 NVFP4,策略性地在 16 个元素之间共享一个缩放因子,以实现每个元素约 4.5 比特。与 BF16 相比,这使模型权重压缩了 3.6 倍,同时由于原生 Tensor Core 支持而保持了最佳的吞吐量。
当应用于 DeepSeek 的专家混合(MoE)层时,NVFP4 几乎不会导致精度下降。这一成功归功于 Together 先进的校准和量化堆栈,为整个模型实现了真正的无损性能。
重新定义的实际性能
最快的推理:我们的专有推理堆栈在我们的无服务器端点上实现了高达 334 令牌/秒的峰值吞吐量,比不使用 Together 推理引擎的部署快了约 32 TPS,同时在更大的批次大小下保持了更好的性能。
最先进的推理堆栈:Together AI 将 NVIDIA HGX B200 与我们优化的软件堆栈(包括先进的 GPU 内核、推理引擎、Together Turbo 推测器和量化技术(FP4/BF16))相结合,为 DeepSeek-R1-0528 在实际生产环境中提供了最快的推理速度。
开源动力源:Together AI 提供 DeepSeek-R1-0528 服务,该模型在性能上与闭源前沿模型相匹配。
我们将继续通过 Together 的推理堆栈和 NVIDIA Blackwell(包括 HGX B200 和 GB200 NVL72)提供行业领先的性能。
联系我们
如果你有兴趣为你的工作负载探索 HGX B200,或者想了解更多关于我们世界级推理优化如何工作的信息,我们邀请你联系我们的客户体验团队。
脚注
[1] 每个基准测试突发包含 32 个 arena-hard 提示(平均约 3k 令牌的完成),紧密模拟了实际生产流量。我们报告吞吐量(TPS)作为整个突发的平均值。这种设置与 TensorRT-LLM 博客中使用的 CNN/DailyMail 数据集形成对比,并且——由于推测器已启用——提示选择可能会改变观察到的 TPS。
附录
质量结果:我们使用 LiveCodeBench v5 评估了质量——这是一套包含 267 个任务的测试集(67 个简单,89 个中等,123 个困难,时间范围从 2024年8月1日到2025年2月1日)。这个任务对量化特别敏感,与 GPQA 或 AIME 等基准测试不同。如图 6 所示,基于 LiveCodeBench 结果的关键要点是:
- Together-AI on HGX B200 几乎逐点跟踪不使用 Together 推理引擎的部署,而 nvFP4 + strict-MTP 配置则以微小但一致的幅度落后。
- Relaxed-MTP 极大地扩大了这一差距——引入了不可接受的噪声——因此所有推理速度比较都使用更严格的 MTP 设置来代表不使用 Together 推理引擎的部署。
图 6:pass@1 报告为三次独立运行的平均值(总体标准差 0.9–2.2)。我们使用温度 0.5 和 top-p 0.95(根据 DeepSeek 论文)评估了我们的无服务器引擎,对我们的 DE 和不使用 Together 推理引擎的部署(这些部署缺乏概率采样)使用贪婪解码。所有运行都使用了 32,000 个令牌的最大序列长度。对于最后一行,我们采用了宽松接受程序。
觉得有用?分享给更多人