Holotron-12B：专为高吞吐量计算机使用智能体设计

H 公司发布了 Holotron-12B，这是一个多模态计算机使用模型。它基于开源的 NVIDIA Nemotron-Nano-2 VL 模型，使用 H 公司的专有数据混合进行微调，旨在为生产环境中的规模化交互智能体提供高性能支持。

该模型现已上线 Hugging Face。

为什么开发 Holotron-12B

当前大多数多模态模型主要优化静态视觉或指令跟随。而 Holotron-12B 的目标不同：它要作为计算机使用智能体的策略模型，在交互环境中高效地感知、决策和行动。

我们想创建一个能在生产中高效扩展、处理包含多张图像的长上下文，同时在智能体基准测试中表现良好的模型。NVIDIA Nemotron 模型在推理侧提供了坚实基础，Holotron-12B 的开发证明了通过进一步训练，模型能实现更多能力。

混合 SSM 架构实现高吞吐量推理

Holotron-12B 推理效率的显著提升，得益于其基础的 Nemotron 架构，该架构采用了混合状态空间模型（SSM）和注意力机制。与纯 Transformer 模型不同，这种设计针对高吞吐量服务进行了优化。

状态空间模型通过避免全注意力机制的二次计算成本，为长上下文推理提供了卓越的可扩展性，尤其适合涉及多张图像和长交互历史的智能体工作负载。在推理方面，SSM 的主要贡献是其大幅减少的内存占用：传统注意力机制需要为每个 token 和层存储 K 和 V 激活（即著名的 KV 缓存），而 SSM 作为线性循环模型，每层每个生成序列仅存储一个恒定状态，与序列长度无关。

在 WebVoyager 基准测试中，该模型表现出色。测试采用了真实世界的多模态智能体工作负载，包含长上下文、多张高分辨率图像，以及 100 个基准工作者的高请求并发。在单块 H100 GPU 上，使用 vLLM 及最新的 SSM 优化（v0.14.1），Holotron-12B 的吞吐量比 Holo2-8B 高出 2 倍以上。这使得它成为吞吐量受限工作负载（如数据生成、标注和在线强化学习）的理想选择。

在受控实验设置中（见图 2），随着并发量增加，Holotron-12B 的扩展效率持续保持，总 token 吞吐量稳步上升，在最大并发 100 时达到 8.9k tokens/s。相比之下，Holo2-8B 的总 token 吞吐量更快地达到平台期，为 5.1k tokens/s。

这种行为凸显了 Nemotron 架构的一个关键优势：更有效和高效的 VRAM 利用率，以及更小的整体内存占用，从而允许在相同硬件上使用更大的有效批处理大小。即使在大批处理量下，Holotron-12B 仍能保持强劲的吞吐量。

训练与评估 Holotron-12B

Holotron-12B 的训练分为两个阶段。我们从 NVIDIA 发布的多模态基础模型 Nemotron-Nano-12B-v2-VL-BF16 开始，然后在 H 公司的专有定位和导航数据混合上进行监督微调，重点关注屏幕理解、事实对齐（Grounding）和 UI 级交互。

最终检查点训练了大约 140 亿个 token。

智能体基准测试

在计算机使用和导航基准测试中，Holotron-12B 相比 Nemotron 基础模型显示出显著改进，并与现有智能体模型表现相当。其 WebVoyager 性能从 35.1% 提升至 80.5%，超过了 Holo2-8B 在该基准上的表现，证明了模型在智能体环境中的有效执行能力。

定位基准测试

在定位和事实对齐（Grounding）基准测试（如 OS-World-G、GroundUI 和 WebClick）上，Holotron-12B 相比基础 Nemotron 模型也有大幅提升。

结论

Holotron-12B 表明，当配合适当的训练设置和基础设施工作时，NVIDIA Nemotron VL 模型为现实世界的多模态智能体提供了坚实基础。

该模型提供了强大的智能体性能、显著改进的推理吞吐量，并为未来改进（特别是更高分辨率的视觉训练）指明了清晰路径。

我们期待看到大家用 Holotron-12B 构建什么。模型及检查点现已在 Hugging Face 上提供，遵循 NVIDIA 开放模型许可证。

下一步：用 Nemotron 3 Omni 扩展智能体智能的未来

NVIDIA 今日宣布发布 Nemotron 3 Omni。基于 Holotron-12B 的成功，我们正准备对这一新一代多模态模型进行微调。通过利用 Nemotron 3 系列增强的混合 SSM-注意力及 MoE 架构基础，我们旨在借助新发布的 Nemotron 3 Omni 实现推理能力和多模态精度的更大飞跃。随着这一演进将 Holotron 从研究推向商业应用，它将为企业提供大规模自主“计算机使用”部署所需的高吞吐量、低延迟性能。

Holotron-12B：专为高吞吐量计算机使用智能体设计

为什么开发 Holotron-12B

混合 SSM 架构实现高吞吐量推理

训练与评估 Holotron-12B

智能体基准测试

定位基准测试

结论

下一步：用 Nemotron 3 Omni 扩展智能体智能的未来

概念速查

相关文章

pgEdge 推出 Postgres MCP 服务器，AI 智能体连接数据库新方案

Gemini API 新增 Flex 与 Priority 推理层级

评论