AutoJudge:自动筛选无关 token,推理加速 1.5-2 倍

AutoJudge 是一种加速大语言模型(LLM)推理的方法,核心思路是任务特定的损失性推测解码(Lossy Speculative Decoding)。它不追求草稿模型与目标模型输出分布完全匹配,而是识别哪些生成的 token 不匹配会真正影响下游任务质量。
相比之前的方法,AutoJudge 不需要人工标注,它采用自监督方式训练分类器。每个验证周期最多可接受 40 个草稿 token,准确率仅轻微下降,相比标准推测解码能实现 1.5-2 倍加速,并且易于集成到现有 LLM 推理框架中。这项研究将在 NeurIPS 2025 上展示。
推测解码通过将小型“草稿”模型与主“目标”模型配对来加速生成。草稿模型预测多个下一个 token;目标模型并行运行以验证它们。匹配的 token 被接受;第一个不匹配(及之后的所有 token)被拒绝。这确保了输出分布与目标模型自身解码完全相同。
但在实践中,严格的分布匹配并非总是必要。损失性变体用微小的质量损失换取更多速度。Judge Decoding 就是其中一种方法:它只在不匹配会损害最终答案时才拒绝。例如,数学错误或逻辑漏洞很重要,但微小的风格变化通常无关紧要。我们的工作直接基于这个思路。
Judge Decoding 的难点在于数据:它需要人工为每个任务标注“关键”的不匹配 token,这成本高昂且难以跨领域完美迁移。AutoJudge 通过自动挖掘这些重要 token 来消除这个瓶颈——无需人工标注。
AutoJudge 方法

图 1. AutoJudge 的数据收集阶段
AutoJudge 包含以下阶段:
- 自动挖掘“重要”不匹配 对于给定的提示(Prompt),生成目标答案,并定位草稿模型与目标模型不一致的位置。迭代交换草稿 ↔ 目标 token,并重新评估任务(例如 GSM8K 答案相等性或代码单元测试)。如果保留草稿 token 会破坏最终答案,则该不匹配是重要的;否则是不重要的。这种半贪婪的遍历能可靠地找出至少一个重要 token(当答案不同时)。
- 在现有嵌入上训练微型分类器 我们使用简单的逻辑回归,输入是在推测解码期间已经计算好的 Transformer 隐藏状态。拼接草稿和目标 token 的嵌入效果最好,并且在不同正则化选择和小的架构变体中保持稳健。
- 在验证时接受“不重要”的不匹配 在验证阶段——基线方法会拒绝不匹配草稿 token 的地方——我们调用分类器。如果它预测该 token 不重要,我们就接受它并继续前进,增加每个推测周期接受的 token 数量。该方法兼容标准、基于树和单模型多头推测解码方法,并可集成到 vLLM、TensorRT-LLM 和 TGI 等流行框架中。实践中,我们选择高召回率阈值(≥90%)以保护准确率,同时仍能跳过大量 token。

图 2. 接受额外 token 从而加速推理的示例
在图 2 中,我们展示了 AutoJudge 如何在推测解码步骤中接受更多 token。AutoJudge 添加了一个微小的“法官”,在每个不匹配处询问差异是否真的改变了最终答案。在示例中,不匹配是无害的措辞——比如“equals”与“becomes”——我们接受它并保留其余草稿 token。如果它会改变正确性——比如数学步骤中的“+”与“−”——我们就拒绝它。通过只拒绝关键的不匹配,我们从草稿中保留更长的块,因此一次接受更多 token,生成速度更快,对质量影响很小。
性能基准测试
准确率-接受率权衡

图 3: GSM8K 上的准确率和接受 token 数量(左)8-shot Llama-3.2 1B 草稿 / Llama-3.1 8B 目标(右)0-shot Llama-3.1 8B 草稿 / Llama-3.1 70B 目标(均为 Instruct 版本)
图 3 展示了 AutoJudge 如何改变速度-质量边界:随着每个周期接受的草稿 token 数量增加(x 轴),AutoJudge(红色)保持在无损推测解码的准确率附近,同时接受更多草稿 token,而不像朴素的 Top-K 基线那样准确率快速下降。这在两种模型对(左图 1B/8B,右图 8B/70B)中都成立,因此你可以选择一个阈值,以最小的准确率成本获得更高的 token/s。在图 3(右)中,我们展示了可以安全接受三倍多的 token,仅付出 1% 的准确率下降,这表明推测解码可以安全接受多达 45 个 token,质量损失极小。
推理加速
我们将 AutoJudge 集成到 vLLM 的推测解码中,并在 GPU 上测量端到端的 token/s。(设置包括 A100/H100;模型对详情见下文。)
数学推理(GSM8K)
在不同模型对中,AutoJudge 提供一致的吞吐量提升,准确率损失很小:
- Llama-3.1-405B(目标)/ 8B(草稿),8xH100: 91.5%(≈4% 下降),60.1 token/s,1.20×。
- Llama-3.1-70B(目标)/ 8B(草稿),4xA100: 89.9%(≈2% 下降),107.4 token/s,1.49×。
- Llama-3.1-8B(目标)/ 1B(草稿),1xA100: 80.2%(≈3% 下降),169.2 token/s,1.14×。 基线: 50.0(405B),72.3(70B),147.7(8B)token/s。
编程(LiveCodeBench)
AutoJudge 自动识别代码中的关键 token,并提高接受率:
- Llama-3.1-70B(目标)/ 8B(草稿): Pass@1 28.0%(≈3% 下降),~35 接受 token/周期(≈3.5×)。基线接受 token: ~10
- Llama-3.1-8B(目标)/ 1B(草稿): Pass@1 14.5%(≈2.5% 下降),~30 接受 token/周期(≈2.3×)。基线接受 token: ~13
卸载场景(带宽受限)
当链路带宽成为瓶颈时,更长的草稿窗口变得可行,加速效果放大:
- 8B → 70B(GSM8K): 2.4 token/s,1.98×,准确率 90.4%(≈3% 下降)。
- 8B → 70B(GSM8K): 1.4 token/s,1.20×,准确率 95.4%(≈+0.5%)。 基线: 1.19 token/s。
与 EAGLE-2 组合使用
AutoJudge 可以与 EAGLE-2 叠加使用(EAGLE-2 从目标隐藏状态生成草稿,无需单独的草稿模型)。在 GSM8K(0-shot)与 Llama-3.1-8B-Instruct 上,AutoJudge 在 EAGLE 基础上增加了 ~8–20% token/s,准确率变化很小:96.8,102.6,107.5 token/s 对比 89.8 基线,准确率分别为 81.3%,81.0%,78.1%。
局限性与实践注意事项
- 加速效果取决于不匹配对于评估指标(例如答案相等性、单元测试)是否真的不重要。像创意写作这样的任务通常留出的提升空间较小;更多实验(包括长上下文 GSM 和写作)见论文附录。
- 可以选择高召回率分类器阈值(≥90%)来保护质量,同时仍能跳过许多 token。阈值值最好根据每个任务进行调整。
结论
AutoJudge 提供了一种简单且完全自动化的算法,加速推测解码循环:接受无害的不匹配,节省目标模型调用,从而更快。它消除了法官式方法中的人工标注,学习每个任务中什么重要,并使用你已经计算的嵌入上的微型分类器,确保低运行时开销。
试用
- 论文: arxiv.org/abs/2504.20039
- 代码: github.com/garipovroma/autojudge
- 数据: https://huggingface.co/datasets/mightyneighbor/AutoJudge
参考文献
[1] Yaniv Leviathan, Matan Kalman, and Yossi Matias. Fast inference from transformers via speculative decoding, 2023. URL https://arxiv.org/abs/2211.17192
[2] Gregor Bachmann, Sotiris Anagnostidis, Albert Pumarola, Markos Georgopoulos, Artsiom Sanakoyeu, Yuming Du, Edgar Schönfeld, Ali Thabet, Jonas Kohler. Judge Decoding: Faster Speculative Sampling Requires Going Beyond Model Alignment, 2025. URL: https://arxiv.org/abs/2501.19309
[3] Yuhui Li, Fangyun Wei, Chao Zhang, and Hongyang Zhang. Eagle-2: Faster inference of language models with dynamic draft trees, 2024. URL https://arxiv.org/abs/2406.16858
音频名称
音频描述
0:00
支持原生音频和逼真物理效果的高品质电影级视频生成。
8S
DeepSeek R1

支持原生音频和逼真物理效果的高品质电影级视频生成。
性能与规模
正文内容占位,此处为示例文本。
- 要点一示例文本
- 要点二示例文本
- 要点三示例文本
基础设施
适用场景
- 更快的处理速度(降低整体查询延迟)和更低的运营成本
- 执行定义清晰、直接的任务
- 函数调用(Function Calling)、JSON 模式或其他结构良好的任务
列表项 #1
- 示例文本,描述相关特性或优势。
- 示例文本,描述相关特性或优势。
- 示例文本,描述相关特性或优势。
列表项 #1
示例段落文本,详细说明某项功能或服务。
构建
包含的权益:
- ✔ 最高 1.5 万美元的平台积分(免费)*
- ✔ 3 小时免费的前置部署工程支持时间。
融资情况: 少于 500 万美元
构建
包含的权益:
- ✔ 最高 1.5 万美元的平台积分(免费)*
- ✔ 3 小时免费的前置部署工程支持时间。
融资情况: 少于 500 万美元
构建
包含的权益:
- ✔ 最高 1.5 万美元的平台积分(免费)*
- ✔ 3 小时免费的前置部署工程支持时间。
融资情况: 少于 500 万美元
注意: 后续内容包含多个不相关的数学与物理问题思考过程,与“AutoJudge”主题无关,已在此处截断。原始输入的后半部分似乎是其他任务的指令与问题混合,并非本文第二部分的有效延续。
觉得有用?分享给更多人