用深度剪枝草稿模型在 Intel® Core™ Ultra 加速 Qwen3-8B 智能体

Qwen3-8B 是近期最令人兴奋的发布之一,它具备原生的智能体能力,非常适合 AI PC 场景。
我们使用 OpenVINO.GenAI,通过一个轻量级的 Qwen3-0.6B 草稿模型进行推测解码,将生成速度提升了约 1.3 倍。
通过对草稿模型应用简单的剪枝流程,我们进一步将加速比推至约 1.4 倍。
最后,我们展示了如何将这些改进用于在 🤗smolagents 上运行一个快速的本地 AI 智能体。
Qwen3
Qwen3-8B 是 Qwen 系列的最新成员,经过训练具备显式的智能体行为。它支持工具调用、多步推理和长上下文处理能力,非常适合复杂的智能体工作流。当与 Hugging Face 🤗smolagents、QwenAgent 或 AutoGen 等框架集成时,它能实现围绕工具调用和推理构建的广泛智能体应用。
与单轮对话机器人不同,智能体应用依赖于产生“出声思考”痕迹的推理模型,这些中间步骤会扩展 Token 使用量,使得推理速度对响应能力至关重要。优化的推理与内置的智能体智能相结合,使 Qwen3-8B 成为下一代 AI 智能体的坚实基础。
在 Intel® Core™ Ultra 上用推测解码加速 Qwen3-8B
我们首先在 Intel Lunar Lake 集成 GPU 上对 4 位优化的 OpenVINO 版本 Qwen3-8B 进行了基准测试,将其作为后续加速的基线。
推测解码是一种加速自回归生成的方法。它使用一个更小、更快的模型作为草稿,在一次前向传递中提出多个 Token,然后由更大的目标模型在一次前向传递中进行验证。在我们的设置中,Qwen3-8B 作为目标模型,而 Qwen3-0.6B 用作草稿。这种方法相比基线平均带来了 1.3 倍的加速。
from openvino_genai import LLMPipeline, draft_model
target_path = "/path/to/target/Qwen3-8B-int4-ov"
draft_path = "/path/to/draft/Qwen3-0.6B-int8-ov"
device = "GPU"
model = LLMPipeline(target_path, device, draft_model=draft_model(draft_path, device))
streamer = lambda x: print(x, end="", flush=True)
model.generate("What is speculative decoding and how does it improve inference speed?", max_new_tokens=100, streamer=streamer)
在初始化
LLMPipeline之前,请确保目标模型和草稿模型都已转换为 OpenVINO 格式。你可以从提供的链接下载预转换的模型,或按照这些说明转换你自己的模型。
进一步提升性能
推测解码的加速效果取决于目标模型每次前向步骤生成的平均 Token 数 γ、推测窗口大小,以及目标模型与草稿模型延迟之比 c。一个更小、更快(尽管准确性稍低)的草稿模型通常能带来更大的加速。这启发我们缩小草稿模型,同时保持其质量,即保持 E(#generated_tokens)。
Speedup = E(#generated_tokens) / (γc + 1)
我们最近的工作表明,模型深度(层数)是推理延迟的主要贡献者。我们从最近的层间压缩工作中获得灵感。在我们的方法中,我们识别出贡献很小的层块(使用角度距离测量),并将其移除。剪枝后,我们应用微调来恢复准确性。使用这种方法,我们从 Qwen3-0.6B 草稿模型中剪枝了 28 层中的 6 层。为了恢复剪枝后草稿模型的质量,我们使用 Qwen3-8B 生成的合成数据对其进行了进一步微调。数据是通过对 BAAI/Infinity-Instruct 数据集的 50 万个提示生成响应而产生的。
最终的剪枝草稿模型相比基线带来了约 1.4 倍的加速,优于使用原始草稿实现的约 1.3 倍增益。这一结果与理论预期一致——降低草稿延迟提高了整体加速,实现了更快、更高效的推理。
这展示了剪枝 + 推测解码如何解锁更快、更高效的推理——使本地 AI 智能体更加实用。
查看笔记本和 Qwen3-0.6B 深度剪枝草稿模型,逐步复现我们的结果。
与 🤗smolagents 集成
为了展示实际潜力,我们将优化后的设置与 🤗smolagents 库一起部署。通过这种集成,开发者可以接入 Qwen3-8B(搭配我们的剪枝草稿)来构建能够调用 API 和外部工具、编写和执行代码、处理长上下文推理并在 Intel® Core™ Ultra 上高效运行的智能体。这些好处不仅限于 Hugging Face,这种模型配对也可以与 AutoGen 或 QwenAgent 等框架无缝使用,进一步加强智能体生态系统。
在我们的演示中,我们为加速的基于 Qwen3 的智能体分配了一个任务:总结 Qwen3 模型系列的关键特性,并在幻灯片中呈现。
它是如何工作的:1. 智能体使用网络搜索工具收集最新信息。2. 然后切换到 Python 解释器,使用 python-pptx 库生成幻灯片。这个简单的工作流突显了当加速的 Qwen3 模型遇到 🤗smolagents 等框架时解锁的可能性,将实用、高效的 AI 智能体带入 AI PC。在这里试试吧 🚀
参考文献
[1] Gromov, A., Tirumala, K., Shapourian, H., Glorioso, P., & Roberts, D. A. (2025, January 22). The unreasonable ineffectiveness of the deeper layers. Poster presented at ICLR 2025. https://arxiv.org/abs/2403.17887
性能和法律声明
- 性能结果基于截至 2025 年 9 月使用 OpenVINO™ 2025.2 的内部基准测试,配置为 Intel® Core™ Ultra 7 268V 2.20 GHz 处理器,集成 Intel® Arc™ 140V GPU,搭配 32 GB DDR5 内存。
- 性能因使用、配置和其他因素而异。了解更多信息,请访问 www.Intel.com/PerformanceIndex。
- 没有任何产品或组件是绝对安全的。
- 您的成本和结果可能有所不同。
- Intel 技术可能需要启用硬件、软件或服务激活。
- © Intel Corporation。Intel、Intel 徽标和其他 Intel 标记是 Intel Corporation 或其子公司的商标。
- 其他名称和品牌可能被声明为他人的财产。
觉得有用?分享给更多人