Together AI 实现开源模型推理速度翻倍

指南2025年12月1日4 分钟阅读
Together AI 实现开源模型推理速度翻倍
Together AI 通过 GPU 优化、高级推测解码和 FP4 量化,将 Qwen、DeepSeek、Kimi 等主流开源模型的推理速度提升高达 2 倍,在 NVIDIA Blackwell 架构的速度基准测试中排名第一。

Together AI 现在为要求苛刻的开源大语言模型提供高达 2 倍速度的无服务器推理,在输出速度基准测试中排名第一。这一性能突破源于新一代 GPU 硬件、优化内核、近乎无损的量化以及生产级推测解码与定制训练草案模型的协同改进。

关键创新包括架构感知校准、自适应接受策略以及支持高达 1T+ 参数模型的可扩展训练流水线——为 GPT-OSS、Qwen3、Kimi-K2、DeepSeek-R1 和 DeepSeek-V3.1 等模型带来了突破性的速度提升。

过去几个月,团队专注于一个目标:让推理平台成为运行全球最佳开源模型最快的地方。如今,成果不言自明。

根据 Artificial Analysis 的多项独立基准测试,我们的平台在 GPU 提供商中对最苛刻的开源模型的输出速度持续排名第一——包括 GPT-OSS-20B、GPT-OSS-120B、Qwen-3-235B-Instruct、Qwen-3-Coder-480B、Kimi-K2-Instruct、DeepSeek-R1 和 DeepSeek-V3.1。在多个模型上,我们的输出速度比竞争对手快高达 2 倍。

GPT-OSS-20B:比次快提供商快近 2 倍

GPT-OSS-120B:比次快提供商快近 10%

Qwen3-235B-2507:比次快提供商快超 2.75 倍

Qwen3-Coder-480B:比次快提供商快超 22%

Kimi-K2-0905:比次快提供商快超 65%

DeepSeek-V3.1:比次快提供商快超 10%

DeepSeek-R1-0528:比次快提供商快超 13%

这种级别的性能提升并非来自单一改动,而是硬件、内核、运行时引擎调优、推测解码和草案模型训练流水线协同改进的结果。本文将分享我们如何实现这一突破。

1. 新一代 GPU 硬件与引擎优化

性能提升的很大一部分源于完全现代化的推理引擎,该引擎旨在利用最新的 GPU 硬件、优化内核和新兴的低位量化格式,如 FP4。我们没有孤立地优化各个层,而是重新架构了整个堆栈——计算内核、内存布局、执行图和调度——使其作为一个统一的高效系统协同工作。

最新 GPU 上的硬件感知执行

我们的引擎专门针对 NVIDIA Blackwell 架构(包括 NVIDIA GB200 NVL72)进行了调优。这包括针对低精度计算(FP8、FP4)、高带宽数据移动和近乎零开销调度的优化路径,以最大化所有计算层的利用率。我们不仅是在快速硬件上运行,更是围绕其构建执行结构,以在实际工作负载中发挥其全部能力。

Together Kernels

我们构建并集成了新一代高性能 GPU 内核,专为 NVIDIA Blackwell 架构设计,使我们能够充分利用巨大的带宽。这包括我们优化的 FlashAttention-4 内核、融合了路由和专家 FFN 的 MoE 内核等。这些硬件感知内核显著提高了大型模型的吞吐量,是我们在实际工作负载中看到的性能提升的关键驱动力。

2. Turbo 优化套件

量化

速度提升的关键部分来自于我们将大型模型权重量化为低位格式的能力——包括 FP8、FP4(nvfp4 或 mxfp4)和混合精度——同时在实践中保持近乎无损。我们的流水线执行架构感知校准、细粒度块级缩放以及对敏感路径的选择性混合精度,使我们即使在极端压缩水平下也能保持目标模型的质量。结合为低位执行构建的运行时——包括融合的 FP4/FP8 内核、量化 KV 缓存和 Blackwell 优化的内存布局——我们在不牺牲准确性的情况下实现了显著的延迟和吞吐量改进。这种近乎无损的量化能力是我们现在为最大开源模型提供更快推理速度的基础。

推测解码算法

我们近期性能飞跃的最大解锁点之一是在生产级推测解码算法上的工作。

推测解码并不新鲜,但使其在不同数据域中可靠,并在多租户无服务器环境中持续更快,是极其困难的。我们的实现包括:

  • 训练高效的算法,使我们能够获得更高的每训练浮点运算性能
  • 训练专门针对每个目标模型优化的高精度草案模型
  • 自适应接受策略,在保持输出质量的同时最大化速度
  • 故障安全回退机制,确保在高负载下延迟可预测

这解锁了显著的增益——特别是对于像 Kimi 或 Qwen3 这样的模型,我们的 SpecDec 堆栈提供了近双倍的输出速度。查看我们的 ATLAS 博客全球最快的 Blackwell 推理 了解更多详情。

大规模推测解码训练

为了支持最大的现代大语言模型,我们构建了一个完全可扩展的草案模型训练流水线。这是让我们能够为没有现成推测解码器的模型部署高质量推测解码器,以及改进现有推测解码器的基础。

我们公司开发了:

  • 可扩展的训练框架,支持针对高达 1T 参数及以上的目标模型的高性能推测解码算法
  • 基于课程的学习、后训练配方和数据混合策略,使草案模型匹配目标模型的风格和结构输出
  • 对齐评估框架,用于测试和迭代草案模型相对于目标模型的质量
  • 高性能架构和预训练基础模型,可作为许多目标模型的推测解码器适配

结果:草案模型实现了高接受率和速度,从而在 NVIDIA Blackwell 架构上实现了全球最快的推理速度。

下一步是什么?

我们致力于让开源 AI 模型不仅易于访问,而且具备领先性能和行星级可扩展性。这些最新的基准测试是一个里程碑——但不是终点。

我们已经在着手:

  • 为下游领域提供更快的生成
  • 超越推测解码的新一代生成策略
  • 扩展对混合量化的支持 当然,继续推动推理性能向前发展。

联系我们

如果您有兴趣为您的负载探索 NVIDIA GB200 NVL72 或其他 Blackwell GPU——或者想了解更多关于我们世界级推理优化如何工作的信息——我们邀请您与我们的客户体验团队联系。

8S DeepSeek R1 Premium cinematic video generation with native audio and lifelike physics. DeepSeek R1 8S

音频名称

音频描述

0:00

支持原生音频和逼真物理效果的影院级视频生成。

8S

DeepSeek R1

支持原生音频和逼真物理效果的影院级视频生成。

性能与规模

正文内容占位符,lorem ipsum dolor sit amet

  • 要点占位符,lorem ipsum
  • 要点占位符,lorem ipsum
  • 要点占位符,lorem ipsum

基础设施

最佳适用场景

  • 更快的处理速度(降低整体查询延迟)和更低的运营成本
  • 执行定义清晰、直接的任务
  • 函数调用(Function Calling)、JSON 模式或其他结构良好的任务

列表项 #1

  • Lorem ipsum dolor sit amet, consectetur adipiscing elit, sed do eiusmod tempor incididunt.
  • Lorem ipsum dolor sit amet, consectetur adipiscing elit, sed do eiusmod tempor incididunt.
  • Lorem ipsum dolor sit amet, consectetur adipiscing elit, sed do eiusmod tempor incididunt.

列表项 #1

Lorem ipsum dolor sit amet, consectetur adipiscing elit, sed do eiusmod tempor incididunt ut labore et dolore magna aliqua. Ut enim ad minim veniam, quis nostrud exercitation ullamco laboris nisi ut aliquip ex ea commodo consequat.

Build

包含的福利:

  • ✔ 最高 15,000 美元的免费平台积分*
  • ✔ 3 小时免费的前置部署工程时间。

融资额:少于 500 万美元

Build

包含的福利:

  • ✔ 最高 15,000 美元的免费平台积分*
  • ✔ 3 小时免费的前置部署工程时间。

融资额:少于 500 万美元

Build

包含的福利:

  • ✔ 最高 15,000 美元的免费平台积分*
  • ✔ 3 小时免费的前置部署工程时间。

融资额:少于 500 万美元

本文编译自 Together AI delivers fastest inference for the top open-source models,版权归原作者所有。

觉得有用?分享给更多人

获取每周 AI 工具精选

工具推荐、实战教程和生态洞察,每周更新。

相关文章

pgEdge 推出开源 MCP Server for Postgres,支持 AI 智能体通过模型上下文协议(MCP)而非传统 API 方式访问数据库。服务强调数据源无关性、完整模式自省和 token 优化,适用于 Claude Code、Cursor 等主流 AI 开发工具。

指南The New Stack·4月2日·4 分钟

Google 推出 Flex 和 Priority 两个新的推理层级,帮助开发者平衡成本与可靠性。Flex 是成本优化层级,适合后台任务,价格便宜一半;Priority 是最高保障层级,适合用户交互型应用。两者都通过同步接口调用,简化了架构管理。

指南·4月2日·3 分钟

评论