Holotron-12B:专为高吞吐量计算机使用智能体设计

指南Hugging Face2026年3月17日3 分钟阅读
Holotron-12B:专为高吞吐量计算机使用智能体设计
H 公司发布 Holotron-12B,这是一个基于 NVIDIA Nemotron-Nano-2 VL 模型微调的多模态计算机使用模型。在 WebVoyager 基准测试中,其吞吐量比前代 Holo2-8B 高出 2 倍以上,专为生产环境中的规模化交互智能体优化。

H 公司发布了 Holotron-12B,这是一个多模态计算机使用模型。它基于开源的 NVIDIA Nemotron-Nano-2 VL 模型,使用 H 公司的专有数据混合进行微调,旨在为生产环境中的规模化交互智能体提供高性能支持。

该模型现已上线 Hugging Face。

为什么开发 Holotron-12B

当前大多数多模态模型主要优化静态视觉或指令跟随。而 Holotron-12B 的目标不同:它要作为计算机使用智能体的策略模型,在交互环境中高效地感知、决策和行动。

我们想创建一个能在生产中高效扩展、处理包含多张图像的长上下文,同时在智能体基准测试中表现良好的模型。NVIDIA Nemotron 模型在推理侧提供了坚实基础,Holotron-12B 的开发证明了通过进一步训练,模型能实现更多能力。

混合 SSM 架构实现高吞吐量推理

Holotron-12B 推理效率的显著提升,得益于其基础的 Nemotron 架构,该架构采用了混合状态空间模型(SSM)和注意力机制。与纯 Transformer 模型不同,这种设计针对高吞吐量服务进行了优化。

状态空间模型通过避免全注意力机制的二次计算成本,为长上下文推理提供了卓越的可扩展性,尤其适合涉及多张图像和长交互历史的智能体工作负载。在推理方面,SSM 的主要贡献是其大幅减少的内存占用:传统注意力机制需要为每个 token 和层存储 K 和 V 激活(即著名的 KV 缓存),而 SSM 作为线性循环模型,每层每个生成序列仅存储一个恒定状态,与序列长度无关。

在 WebVoyager 基准测试中,该模型表现出色。测试采用了真实世界的多模态智能体工作负载,包含长上下文、多张高分辨率图像,以及 100 个基准工作者的高请求并发。在单块 H100 GPU 上,使用 vLLM 及最新的 SSM 优化(v0.14.1),Holotron-12B 的吞吐量比 Holo2-8B 高出 2 倍以上。这使得它成为吞吐量受限工作负载(如数据生成、标注和在线强化学习)的理想选择。

在受控实验设置中(见图 2),随着并发量增加,Holotron-12B 的扩展效率持续保持,总 token 吞吐量稳步上升,在最大并发 100 时达到 8.9k tokens/s。相比之下,Holo2-8B 的总 token 吞吐量更快地达到平台期,为 5.1k tokens/s。

这种行为凸显了 Nemotron 架构的一个关键优势:更有效和高效的 VRAM 利用率,以及更小的整体内存占用,从而允许在相同硬件上使用更大的有效批处理大小。即使在大批处理量下,Holotron-12B 仍能保持强劲的吞吐量。

训练与评估 Holotron-12B

Holotron-12B 的训练分为两个阶段。我们从 NVIDIA 发布的多模态基础模型 Nemotron-Nano-12B-v2-VL-BF16 开始,然后在 H 公司的专有定位和导航数据混合上进行监督微调,重点关注屏幕理解、事实对齐(Grounding)和 UI 级交互。

最终检查点训练了大约 140 亿个 token。

智能体基准测试

在计算机使用和导航基准测试中,Holotron-12B 相比 Nemotron 基础模型显示出显著改进,并与现有智能体模型表现相当。其 WebVoyager 性能从 35.1% 提升至 80.5%,超过了 Holo2-8B 在该基准上的表现,证明了模型在智能体环境中的有效执行能力。

定位基准测试

在定位和事实对齐(Grounding)基准测试(如 OS-World-G、GroundUI 和 WebClick)上,Holotron-12B 相比基础 Nemotron 模型也有大幅提升。

结论

Holotron-12B 表明,当配合适当的训练设置和基础设施工作时,NVIDIA Nemotron VL 模型为现实世界的多模态智能体提供了坚实基础。

该模型提供了强大的智能体性能、显著改进的推理吞吐量,并为未来改进(特别是更高分辨率的视觉训练)指明了清晰路径。

我们期待看到大家用 Holotron-12B 构建什么。模型及检查点现已在 Hugging Face 上提供,遵循 NVIDIA 开放模型许可证。

下一步:用 Nemotron 3 Omni 扩展智能体智能的未来

NVIDIA 今日宣布发布 Nemotron 3 Omni。基于 Holotron-12B 的成功,我们正准备对这一新一代多模态模型进行微调。通过利用 Nemotron 3 系列增强的混合 SSM-注意力及 MoE 架构基础,我们旨在借助新发布的 Nemotron 3 Omni 实现推理能力和多模态精度的更大飞跃。随着这一演进将 Holotron 从研究推向商业应用,它将为企业提供大规模自主“计算机使用”部署所需的高吞吐量、低延迟性能。

本文编译自 Holotron-12B - High Throughput Computer Use Agent,版权归原作者所有。

觉得有用?分享给更多人

获取每周 AI 工具精选

工具推荐、实战教程和生态洞察,每周更新。

相关文章

pgEdge 推出开源 MCP Server for Postgres,支持 AI 智能体通过模型上下文协议(MCP)而非传统 API 方式访问数据库。服务强调数据源无关性、完整模式自省和 token 优化,适用于 Claude Code、Cursor 等主流 AI 开发工具。

指南The New Stack·4月2日·4 分钟

Google 推出 Flex 和 Priority 两个新的推理层级,帮助开发者平衡成本与可靠性。Flex 是成本优化层级,适合后台任务,价格便宜一半;Priority 是最高保障层级,适合用户交互型应用。两者都通过同步接口调用,简化了架构管理。

指南·4月2日·3 分钟

评论