Holotron-12B:专为高吞吐量计算机使用智能体设计

H 公司发布了 Holotron-12B,这是一个多模态计算机使用模型。它基于开源的 NVIDIA Nemotron-Nano-2 VL 模型,使用 H 公司的专有数据混合进行微调,旨在为生产环境中的规模化交互智能体提供高性能支持。
该模型现已上线 Hugging Face。
为什么开发 Holotron-12B
当前大多数多模态模型主要优化静态视觉或指令跟随。而 Holotron-12B 的目标不同:它要作为计算机使用智能体的策略模型,在交互环境中高效地感知、决策和行动。
我们想创建一个能在生产中高效扩展、处理包含多张图像的长上下文,同时在智能体基准测试中表现良好的模型。NVIDIA Nemotron 模型在推理侧提供了坚实基础,Holotron-12B 的开发证明了通过进一步训练,模型能实现更多能力。
混合 SSM 架构实现高吞吐量推理
Holotron-12B 推理效率的显著提升,得益于其基础的 Nemotron 架构,该架构采用了混合状态空间模型(SSM)和注意力机制。与纯 Transformer 模型不同,这种设计针对高吞吐量服务进行了优化。
状态空间模型通过避免全注意力机制的二次计算成本,为长上下文推理提供了卓越的可扩展性,尤其适合涉及多张图像和长交互历史的智能体工作负载。在推理方面,SSM 的主要贡献是其大幅减少的内存占用:传统注意力机制需要为每个 token 和层存储 K 和 V 激活(即著名的 KV 缓存),而 SSM 作为线性循环模型,每层每个生成序列仅存储一个恒定状态,与序列长度无关。
在 WebVoyager 基准测试中,该模型表现出色。测试采用了真实世界的多模态智能体工作负载,包含长上下文、多张高分辨率图像,以及 100 个基准工作者的高请求并发。在单块 H100 GPU 上,使用 vLLM 及最新的 SSM 优化(v0.14.1),Holotron-12B 的吞吐量比 Holo2-8B 高出 2 倍以上。这使得它成为吞吐量受限工作负载(如数据生成、标注和在线强化学习)的理想选择。

在受控实验设置中(见图 2),随着并发量增加,Holotron-12B 的扩展效率持续保持,总 token 吞吐量稳步上升,在最大并发 100 时达到 8.9k tokens/s。相比之下,Holo2-8B 的总 token 吞吐量更快地达到平台期,为 5.1k tokens/s。
这种行为凸显了 Nemotron 架构的一个关键优势:更有效和高效的 VRAM 利用率,以及更小的整体内存占用,从而允许在相同硬件上使用更大的有效批处理大小。即使在大批处理量下,Holotron-12B 仍能保持强劲的吞吐量。

训练与评估 Holotron-12B
Holotron-12B 的训练分为两个阶段。我们从 NVIDIA 发布的多模态基础模型 Nemotron-Nano-12B-v2-VL-BF16 开始,然后在 H 公司的专有定位和导航数据混合上进行监督微调,重点关注屏幕理解、事实对齐(Grounding)和 UI 级交互。
最终检查点训练了大约 140 亿个 token。
智能体基准测试
在计算机使用和导航基准测试中,Holotron-12B 相比 Nemotron 基础模型显示出显著改进,并与现有智能体模型表现相当。其 WebVoyager 性能从 35.1% 提升至 80.5%,超过了 Holo2-8B 在该基准上的表现,证明了模型在智能体环境中的有效执行能力。

定位基准测试
在定位和事实对齐(Grounding)基准测试(如 OS-World-G、GroundUI 和 WebClick)上,Holotron-12B 相比基础 Nemotron 模型也有大幅提升。

结论
Holotron-12B 表明,当配合适当的训练设置和基础设施工作时,NVIDIA Nemotron VL 模型为现实世界的多模态智能体提供了坚实基础。
该模型提供了强大的智能体性能、显著改进的推理吞吐量,并为未来改进(特别是更高分辨率的视觉训练)指明了清晰路径。
我们期待看到大家用 Holotron-12B 构建什么。模型及检查点现已在 Hugging Face 上提供,遵循 NVIDIA 开放模型许可证。
下一步:用 Nemotron 3 Omni 扩展智能体智能的未来
NVIDIA 今日宣布发布 Nemotron 3 Omni。基于 Holotron-12B 的成功,我们正准备对这一新一代多模态模型进行微调。通过利用 Nemotron 3 系列增强的混合 SSM-注意力及 MoE 架构基础,我们旨在借助新发布的 Nemotron 3 Omni 实现推理能力和多模态精度的更大飞跃。随着这一演进将 Holotron 从研究推向商业应用,它将为企业提供大规模自主“计算机使用”部署所需的高吞吐量、低延迟性能。
觉得有用?分享给更多人