定制推测解码让 DeepSeek-R1 提速 1.85-2.97 倍

用自己推理数据训练定制推测器(Custom Speculator),DeepSeek-R1 解码速度比 Together 基础推测器提升 1.23-1.45 倍,整体成本降低约 25%。相比传统逐词预测,速度提升最高达 2.97 倍,成本削减超 55%。联系销售团队即可在专属端点上启用定制推测器。
优化前沿开源模型:DeepSeek-R1
今年 1 月,DeepSeek-R1 横空出世。这个开源大语言模型(LLM)在多项复杂任务上媲美前沿闭源模型,训练成本却低得多。
虽然训练 R1 相对便宜,但推理依然又贵又慢。原因有二:模型参数量大(671B),生成合理回答需要大量思维链(Chain-of-Thought)“思考”。优化 DeepSeek-R1 的速度和成本,对许多延迟敏感或成本敏感的实际应用至关重要。比如社交媒体或客服互动需要接近人类的响应速度,批量企业应用(如简历筛选)则要求高效处理数万份文档。
我们用来加速 DeepSeek-R1(以及平台上其他模型)推理的一项重要技术是推测解码(Speculative Decoding)。这项技术优化了我们无服务器和专属推理端点的速度与成本,我们在此领域已取得多项前沿成果(如 Medusa、Sequoia、SpecExec)。推测解码的一大亮点是,当推测器针对特定领域(例如用该领域数据微调)时,能获得更高的加速比。这篇博文将展示训练定制推测器的成本和速度收益。先来看看推测解码的工作原理。
推测解码入门
未经优化的大语言模型(LLM)在推理时只能逐个 token 解码,因为每个 token 生成都需要一次完整的模型前向传播。这种串行过程很慢,尤其对于数十亿参数的模型——生成每个新 token 都需要将整个模型从 GPU 存储移动到计算核心,这个操作很耗时。

左侧展示无推测解码的 R1 推理过程,右侧展示使用我们专有推测器的效果。左侧蓝色为 R1 的“思考”token,黑色为非“思考”token。右侧红色为被验证器 LLM 纠正的拒绝 token。可以看到,推测解码在此案例中将推理速度提升了 2.3 倍,因为大部分推测 token 都被接受了。
推测解码通过使用一个更小、更快的**“推测器”模型**来推测接下来几个 token,然后由更大的“目标”模型(即被加速的模型)并行验证,从而加速 LLM 解码。例如,一个 8B 模型可以快速生成一串未来 token,671B 模型则能通过比较草稿模型的 token 概率与自身概率,在单次前向传播中高效验证。推测的 token 序列可能被全部或部分接受,也可能被完全拒绝。一个强大的推测器(如 R1 的 MTP 模块)可将 token 生成速度提升约 1.5 倍,是生成式 AI 系统的重要优化技术。
优秀的推测器具备以下特性:
- 速度快:推理开销小,通常需要更小、表达能力稍弱的语言模型。
- 与目标模型对齐:在目标领域预测的输出与更大目标 LLM 相似。对于无服务器端点,由于工作负载范围极广,实现这种对齐尤其困难,需要高度鲁棒的推测器。相比之下,我们的专属端点客户通常工作负载分布更集中,允许我们微调推测器,使其在该类数据上紧密匹配目标 LLM 的输出。
在 Together,我们在这两个维度上优化推测器,权衡推测器的速度与对齐度,以获得最佳端到端加速效果。基于研究团队的努力,我们可以优化平台托管 200 多个模型的推测解码。
用定制推测器实现极速 R1
现在展示我们前沿的基础推测器(Base Speculator)和定制推测器(Custom Speculator)在三种不同 R1 推理工作负载上达到的加速比。这些工作负载——文档提取、社交聊天助手和简历筛选——是几位客户实际成本敏感和延迟敏感应用的代表。
如下图所示,我们的基础推测器在三种不同 R1 客户工作负载上实现了约 1.44-2.27 倍于传统逐词预测的加速。我们还展示了为这三种工作负载进一步定制推测器的效果:Together 的定制推测器达到约 100-170 token/秒的速度,相比 Together 基础推测器加速 1.23-1.45 倍——整体比逐词预测加速 1.85-2.97 倍。这些定制推测器使用我们的专有训练流水线训练,该流水线用每个工作负载的数据微调我们的基础推测器。

Together 定制推测器在三种不同 R1 客户用例上达到的加速因子。我们将其均值及第 5、95 百分位性能与 Together 基础推测器及无推测器进行比较。我们的定制推测器相比基础推测器带来 1.23-1.45 倍加速。推理测量通过每个用户在低延迟场景下的流量留出集获得。
随着客户持续使用我们的推理平台,我们可以利用不断增长的推理流量数据提升推测器性能。这反过来为我们的客户带来更高的加速比,特别是使用专属推理产品的客户。例如,仅用 20M token(约 1 万组提示-响应对),我们的 DeepSeek R1 推测器就能实现 >1.10 倍于基础推测器的加速。使用 50M token 时,加速比可达 >1.20 倍。随着客户(尤其是使用专属推理产品的客户)持续使用我们的 API,我们可以利用这个不断增长的数据集推动进一步改进。

Together 定制推测器在低延迟场景下,针对三种不同 R1 客户用例,随客户训练 token 数量(百万计)变化的加速因子。所有定制推测器均从 Together 基础推测器训练而来。20M token 约等于 2048 序列长度下的 1 万组提示-响应对。
除了显著的延迟改进,定制推测器还能提高单 GPU 的整体吞吐量,从而通过用更少 GPU 服务相同流量来降低整体推理成本。这对依赖 AI 系统每日处理海量请求的企业客户尤为重要。下图展示了平均 GPU 成本:使用定制推测器后,生成 1B token 所需的 GPU 小时数(即整体成本)相比基础推测器减少 23%-26%,相比无推测解码减少 49%-61%。

基于定制、基础及无推测器估算的 DeepSeek-R1 平均推理成本(GPU 小时)。成本通过 Together 用户流量在高吞吐场景下的留出集推理测量估算。
这项研究来自我们的 Turbo 研究团队,该团队专注于推理效率,包括推测解码和模型优化。期待团队未来带来更多效率改进!
总结
开源强者:Together AI 提供服务的 DeepSeek-R1 性能媲美闭源前沿模型。
2-3 倍推理加速:我们的推测解码技术大幅提升 token 生成速度,降低延迟,提高吞吐量。
定制优化:针对特定工作负载微调的定制推测器,相比我们前沿的基础推测器额外提速 1.23–1.45 倍。
成本更低,效率更高:相比标准推测解码降低 GPU 成本 23%-26%,相比无优化降低 49%-61%。
可扩展且自适应:性能随数据量提升而改善——仅 20M token(约 1 万条提示)即可实现 >1.10 倍加速。
专属端点优势:在 Together AI 专属实例上获得针对工作负载的优化,实现最高效率。
联系我们
如果您有兴趣为工作负载探索定制推测器,或想了解更多关于我们世界级推理优化如何运作,欢迎联系我们的客户体验团队。
8S
DeepSeek R1

Premium cinematic video generation with native audio and lifelike physics.
DeepSeek R1
8S
音频名称
音频描述
0:00
原生音频与逼真物理效果加持的优质电影级视频生成。
8S
DeepSeek R1

原生音频与逼真物理效果加持的优质电影级视频生成。
性能与规模
正文内容占位符,lorem ipsum dolor sit amet
- 要点占位符,lorem ipsum
- 要点占位符,lorem ipsum
- 要点占位符,lorem ipsum
基础设施
最佳适用场景
- 更快的处理速度(降低整体查询延迟)和更低的运营成本
- 执行定义清晰、直接的任务
- 函数调用(Function Calling)、JSON 模式或其他结构良好的任务
列表项 #1
- Lorem ipsum dolor sit amet, consectetur adipiscing elit, sed do eiusmod tempor incididunt.
- Lorem ipsum dolor sit amet, consectetur adipiscing elit, sed do eiusmod tempor incididunt.
- Lorem ipsum dolor sit amet, consectetur adipiscing elit, sed do eiusmod tempor incididunt.
列表项 #1
Lorem ipsum dolor sit amet, consectetur adipiscing elit, sed do eiusmod tempor incididunt ut labore et dolore magna aliqua. Ut enim ad minim veniam, quis nostrud exercitation ullamco laboris nisi ut aliquip ex ea commodo consequat.
构建
包含的福利:
- ✔ 最高 $15K 的免费平台积分*
- ✔ 3 小时免费的前置部署工程时间。
融资:少于 $5M
构建
包含的福利:
- ✔ 最高 $15K 的免费平台积分*
- ✔ 3 小时免费的前置部署工程时间。
融资:少于 $5M
构建
包含的福利:
- ✔ 最高 $15K 的免费平台积分*
- ✔ 3 小时免费的前置部署工程时间。
融资:少于 $5M
音频名称
音频描述
0:00
原生音频与逼真物理效果加持的优质电影级视频生成。
8S
DeepSeek R1

原生音频与逼真物理效果加持的优质电影级视频生成。
性能与规模
正文内容占位符,lorem ipsum dolor sit amet
- 要点占位符,lorem ipsum
- 要点占位符,lorem ipsum
- 要点占位符,lorem ipsum
基础设施
最佳适用场景
- 更快的处理速度(降低整体查询延迟)和更低的运营成本
- 执行定义清晰、直接的任务
- 函数调用(Function Calling)、JSON 模式或其他结构良好的任务
列表项 #1
- Lorem ipsum dolor sit amet, consectetur adipiscing elit, sed do eiusmod tempor incididunt.
- Lorem ipsum dolor sit amet, consectetur adipiscing elit, sed do eiusmod tempor incididunt.
- Lorem ipsum dolor sit amet, consectetur adipiscing elit, sed do eiusmod tempor incididunt.
列表项 #1
Lorem ipsum dolor sit amet, consectetur adipiscing elit, sed do eiusmod tempor incididunt ut labore et dolore magna aliqua. Ut enim ad minim veniam, quis nostrud exercitation ullamco laboris nisi ut aliquip ex ea commodo consequat.
构建
包含的福利:
- ✔ 最高 $15K 的免费平台积分*
- ✔ 3 小时免费的前置部署工程时间。
融资:少于 $5M
构建
包含的福利:
- ✔ 最高 $15K 的免费平台积分*
- ✔ 3 小时免费的前置部署工程时间。
融资:少于 $5M
构建
包含的福利:
- ✔ 最高 $15K 的免费平台积分*
- ✔ 3 小时免费的前置部署工程时间。
融资:少于 $5M
觉得有用?分享给更多人