ATLAS:运行时自学习加速器让 LLM 推理越用越快

ATLAS 基于 Together Turbo 最新研究,可将 LLM 推理速度提升高达 4 倍。

在 Together AI,我们痴迷于性能。让大语言模型更快、更便宜、更高效不是单一技巧能解决的问题——它需要在算法、架构和建模方法等多个维度进行优化。这就是 Together Turbo 背后的理念,这是我们一系列推理创新技术的集合,融合了算法、架构和建模方法的研究成果。我们很高兴推出自适应学习推测系统(ATLAS),这是首个无需手动调优即可自动提升性能的推测器。
ATLAS 提供了一种新的推测解码方式——一种在运行时动态改进的方式——并且可以与我们其他的 Turbo 技术无缝结合,例如专有的 Together Turbo Speculator 或 Custom Speculators。但为什么要创建一个自适应学习的推测器系统呢?
标准推测器是为通用工作负载训练的。自定义推测器是在你的特定数据上训练的,但只针对某个时间点的快照。然而,随着工作负载的演变(代码库增长、流量模式变化、请求分布改变),即使是高度定制的推测器也可能落后。相比之下,ATLAS 会随着使用自动进化,从历史模式和实时流量中学习,持续与目标模型的行为实时对齐。这意味着你使用我们的推理服务越多,ATLAS 的性能就越好!
基于 Together Turbo Speculator 构建,ATLAS 在完全适应的情况下,在 DeepSeek-V3.1 上达到最高 500 TPS,在 Kimi-K2 上达到最高 460 TPS——比标准解码快 2.65 倍,甚至超过了 Groq 等专用硬件的性能(图 1)。

图 1:我们在 NVIDIA HGX B200 上展示了使用 Turbo 推测器和自适应学习推测系统对 DeepSeek-V3.1(上)和 KIMI-K2-0905(下)的解码速度,使用 Arena Hard 流量。
1. 推测解码
推测解码是加速推理最有效的手段之一。它不是让目标模型逐步生成每个 Token,而是由一个更快的 推测器(也称为 草稿模型)提前提议多个 Token,然后目标模型在单次前向传播中并行 验证 它们。验证过程确保输出的质量与非推测解码的分布匹配,同时通过一次接受多个 Token 来实现加速。
整体速度受接受率 $α$(即目标模型同意推测器草拟的 Token 的频率)以及草稿与目标的相对延迟 $c$ 影响。通常,参数更多的大型推测器由于容量更高,能提供更高的接受率,但生成草稿 Token 的速度较慢。因此,进步来自两个方面:对齐草稿和目标模型以提高 $α$(训练目标、数据和算法),以及设计在保持 $α$ 的同时降低 $c$ 的草稿模型/内核(稀疏化、量化、轻量级和内核高效架构)。最佳平衡点是高 $α$ 与低 $c$ 的结合,从而最小化端到端延迟。

在 Together AI,Turbo 团队开发了高性能推测器,通过融合架构、稀疏化、算法、后训练方法和数据方面的进展,在 NVIDIA Blackwell 上实现了 全球最快的解码速度。我们构建了一个 推测器设计和选择框架,用于确定最优的推测器架构(宽度/深度、前瞻长度、稀疏化/量化、KV 重用),以及一个 可扩展的训练系统,能够快速且可重复地为最大、最具挑战性的开源目标模型(例如 DeepSeek-V3.1 和 Kimi-K2)训练和部署推测器。例如,虽然 Kimi 没有提供现成的推测器,但我们可以快速训练并部署一个,在相同的硬件和批次设置下,将 Kimi 从开箱即用的约 150 TPS 提升到 270+ TPS,同时保持目标模型的质量(见图 1,黄色条)。这个流水线为 Turbo Speculators 提供了支持,实现了最先进的解码延迟,并为下一步奠定了基础:一个自适应学习的推测器系统,能够实时根据工作负载调整 Token 草拟。
2. Turbo 的自适应学习推测器系统
在 Together AI,我们支持广泛的推理工作负载。但今天的推测解码方法受限于使用 静态 推测器,这些推测器在固定数据集上训练。一旦部署,推测器就无法适应,如果输入分布发生变化,性能就会下降。这个问题在无服务器、多租户环境中尤为突出,因为输入多样性极高。新用户不断涌入,带来独特的、固定推测器在训练期间可能从未见过的工作负载。此外,这些推测器通常使用 固定前瞻长度,无论推测器的置信度如何,都预测相同数量的 Token。简而言之,静态推测器跟不上变化。

图 3:两个推测器——一个静态,一个自适应——与一个置信度感知控制器协同工作,控制器选择使用哪个推测器并调整前瞻长度,以实现最佳的准确性和速度。
为了解决这些限制,我们设计了 自适应学习推测系统,包含两个协同工作的推测器,如图 3 所示:
- 一个重量级的 静态 推测器,在广泛语料上训练,提供强大、通用的推测能力。
- 一个轻量级的 自适应 推测器,允许从实时流量中进行快速、低开销的更新,即时针对新兴领域进行专业化。
- 一个 置信度感知控制器,在每一步选择信任哪个推测器以及使用什么推测前瞻长度,当推测器置信度高时使用更长的推测。
通过静态推测器设置效率护栏。 静态 Turbo Speculator 作为一个始终在线的速度底线:它在广泛语料上训练,在不同工作负载下保持稳定,因此当流量变化或自适应路径处于冷启动状态时,TPS 不会崩溃。在 ATLAS 中,我们用它来快速启动速度并提供故障安全回退——如果置信度下降或检测到漂移,控制器会缩短前瞻长度或切换回静态路径,以保持延迟,同时自适应推测器重新学习。
自定义推测器 vs. 自适应学习。 我们从之前的研究中了解到,在真实流量样本上训练的 自定义推测器 能带来额外的速度提升。自适应学习推测器使我们能够在实时中更加定制化。例如,在 vibe-coding 会话期间,自适应系统可以为正在编辑且训练期间未见的相关代码文件专业化一个轻量级推测器,进一步提高接受率和解码速度。这种即时专业化很难通过静态推测器实现。
加速 RL 训练。 强化学习(RL)在两个阶段之间交替:(1) 一个 rollout 阶段,当前策略生成轨迹并接收奖励,以及 (2) 一个更新阶段,我们使用奖励来更新策略。实际上,rollout 通常是瓶颈,约占总体挂钟时间的 70%。通常,由于策略分布在训练过程中会发生变化,静态推测器会很快与目标策略失去对齐,导致次优的吞吐量。ATLAS 通过在线适应不断演变的策略和特定的 RL 领域来解决这个问题,保持对齐并减少总体 rollout 时间。RL 的领域特定、迭代性质进一步实现了快速适应,产生持续且增长的速度提升。如图 4 所示,将 ATLAS 应用于 RL-MATH 流水线,随着训练的进行,速度提升不断增加。

图 4:我们在 NVIDIA Hopper H100 GPU 上使用 ATLAS 对 Qwen/Qwen2.5-7B-Instruct-1M 在 DeepScaler 子集上进行 RL 训练。接受率在 1.4k 训练步数内从低于 10% 上升到高于 80%,导致总体训练时间减少超过 60%,而无需改变 RL 训练算法。
作为 Turbo 优化套件的一部分构建。 自适应学习推测器系统是更广泛的 Turbo 优化套件的核心组件,其中每一层优化都会叠加其他优化的好处。如图 5 所示,通过近乎无损的量化(校准以保持质量)、Turbo Speculator,最后是自适应学习推测器系统,性能逐步提升。套件中的其他优化包括 TurboBoost-TTFT(未显示),用于减少首 Token 时间延迟,进一步促进端到端加速。

图 5:Together Turbo 优化套件中的性能增益,显示了从 vanilla FP8 DeepSeek 基线(105 TPS)到自适应学习推测器系统(501 TPS)的渐进速度提升。实验基于 NVIDIA HGX B200,批次大小为 1,详见图 1。
极端峰值效率。 当输入分布狭窄且输出与先前见过的 Token 高度相似时,自适应系统会快速专业化。在这种情况下,控制器变得有信心更多地使用轻量级推测器的 Token 并延长前瞻长度。这比静态或一次性自定义推测器能维持的 TPS 更高。如图 1 和图 5 所示,一旦完全适应 Arena-Hard 流量,DeepSeek 在 4 个 B200 GPU 上,批次大小为 1 时,达到最高 500 个 Token 每秒,相比 FP8 基线实现了 400% 的速度提升(从 105 TPS 提升到 501 TPS)。
{{custom-cta-1}}
相关研究
ATLAS 建立在推测解码(Speculative Decoding)这一活跃的研究生态之上。从早期的「草稿-验证」方法,如《通过推测解码实现 Transformer 快速推理》和《推测采样》,到结构化变体,包括 Medusa、OPT-Tree 和 EAGLE 系列。近期的研究则让推测过程变得自适应,例如《在线推测解码》。
性能与规模
正文内容待补充。
- 要点一
- 要点二
- 要点三
基础设施
最佳适用场景
- 更快的处理速度(降低整体查询延迟)和更低的运营成本
- 执行定义明确、直接的任务
- 函数调用、JSON 模式或其他结构清晰的任务
列表项 #1
- 占位文本,待替换为实际内容。
- 占位文本,待替换为实际内容。
- 占位文本,待替换为实际内容。
列表项 #1
占位文本,待替换为实际内容。
构建
包含的权益
- ✔ 最高 15,000 美元的平台免费额度*
- ✔ 3 小时免费的前置部署工程时间。
融资情况: 少于 500 万美元
包含的权益
- ✔ 最高 15,000 美元的平台免费额度*
- ✔ 3 小时免费的前置部署工程时间。
融资情况: 少于 500 万美元
包含的权益
- ✔ 最高 15,000 美元的平台免费额度*
- ✔ 3 小时免费的前置部署工程时间。
融资情况: 少于 500 万美元
在专属端点获取 ATLAS
8S
DeepSeek R1

具备原生音频和逼真物理效果的优质电影级视频生成。
DeepSeek R1
8S
音频名称
音频描述
0:00
具备原生音频和逼真物理效果的优质电影级视频生成。
8S
DeepSeek R1

具备原生音频和逼真物理效果的优质电影级视频生成。
标题
正文内容待补充。
标题
正文内容待补充。
标题
正文内容待补充。
在专属端点获取 ATLAS
8S
DeepSeek R1

具备原生音频和逼真物理效果的优质电影级视频生成。
DeepSeek R1
8S
音频名称
音频描述
0:00
原生音频与逼真物理效果加持的影院级视频生成。
8S
DeepSeek R1

原生音频与逼真物理效果加持的影院级视频生成。
性能与规模
正文内容占位,lorem ipsum dolor sit amet
- 要点内容占位,lorem ipsum
- 要点内容占位,lorem ipsum
- 要点内容占位,lorem ipsum
基础设施
最佳适用场景
- 更快的处理速度(降低整体查询延迟)和更低的运营成本
- 执行定义明确、直接的任务
- 函数调用(Function Calling)、JSON 模式或其他结构良好的任务
列表项 #1
- Lorem ipsum dolor sit amet, consectetur adipiscing elit, sed do eiusmod tempor incididunt.
- Lorem ipsum dolor sit amet, consectetur adipiscing elit, sed do eiusmod tempor incididunt.
- Lorem ipsum dolor sit amet, consectetur adipiscing elit, sed do eiusmod tempor incididunt.
列表项 #1
Lorem ipsum dolor sit amet, consectetur adipiscing elit, sed do eiusmod tempor incididunt ut labore et dolore magna aliqua. Ut enim ad minim veniam, quis nostrud exercitation ullamco laboris nisi ut aliquip ex ea commodo consequat.
构建
包含的福利:
- ✔ 最高 1.5 万美元的免费平台积分*
- ✔ 3 小时免费前置部署工程时间。
融资:少于 500 万美元
构建
包含的福利:
- ✔ 最高 1.5 万美元的免费平台积分*
- ✔ 3 小时免费前置部署工程时间。
融资:少于 500 万美元
构建
包含的福利:
- ✔ 最高 1.5 万美元的免费平台积分*
- ✔ 3 小时免费前置部署工程时间。
融资:少于 500 万美元
XX
标题
正文内容占位,lorem ipsum dolor sit amet
XX
标题
正文内容占位,lorem ipsum dolor sit amet
XX
标题
正文内容占位,lorem ipsum dolor sit amet
觉得有用?分享给更多人