Ai2 开源视觉网页智能体 MolmoWeb

指南The New Stack2026年3月24日3 分钟阅读
Ai2 开源视觉网页智能体 MolmoWeb
艾伦人工智能研究所发布 MolmoWeb,一个开源的视觉网页智能体,包含 40 亿和 80 亿参数版本,无需蒸馏专有模型,训练数据和评估工具全部公开。

过去几个月,能浏览网页并替用户完成任务的 AI 智能体进步显著,但背后的模型大多仍是闭源的。

周二,艾伦人工智能研究所(Ai2)发布了 MolmoWeb,这是一个新的开源视觉网页智能体,属于 Ai2 的 Molmo 2 模型家族。

新模型提供两个尺寸:40 亿参数和 80 亿参数,体积小到能在本地运行。和 Ai2 几乎所有模型一样,团队也公开了权重、训练数据、代码(即将发布)和评估工具。

这类智能体的思路是构建一个能在网页浏览器中执行任务的系统,使用和人类一样的界面。

智能体应该能导航网站、填写表单、在购物网站搜索商品、并检索信息。

虽然像 WebMCP 这样的活跃项目旨在让智能体更容易与单个网站交互,但 MolmoWeb 这类系统会接收任务,通过查看网页截图、预测下一步操作、点击按钮、输入文本和滚动来执行。这意味着智能体应该能导航网站、填写表单、在购物网站搜索商品、并检索信息。

图片来源:Ai2。

MolmoWeb 的突出之处不仅在于体积小,还在于 Ai2 没有通过蒸馏专有的视觉智能体来训练模型。团队写道,数据来自“仅文本的无障碍树智能体生成的合成轨迹和人类演示”。

基准测试

这种方法在一些标准的浏览器使用基准测试中表现不俗。例如,MolmoWeb 的表现优于 OpenAI 的 GPT-4o(尽管后者较旧),后者依赖标注截图和结构化页面数据。在开源模型中,MolmoWeb 的 40 亿和 80 亿参数版本也超过了 Fara-7B 和 GLM-4.1V-9B 等竞争对手。

图片来源:Ai2。

不过,Anthropic、Google、OpenAI 等公司的专有模型在多数情况下仍轻松领先这些开源模型。但值得记住的是,Ai2 的部分使命未必是与这些模型竞争,而是为想了解这些系统工作原理的研究人员提供一个替代选择。

Ai2 的使命未必是与 Anthropic 或 OpenAI 竞争,而是为研究人员提供一个替代选择。

团队指出:“开源社区不仅缺乏模型,还缺乏构建有竞争力替代方案所需的训练数据、基础设施和评估工具。这种差距限制了可复现性,拖慢了研究进展,使得理解这些系统实际工作原理变得困难。在许多方面,今天的网页智能体就像大语言模型在 Olmo 之前的状态——社区需要一个开放的基础来构建。”

MolmoWeb 的训练数据

MolmoWeb 的训练集包含 3 万条人类任务轨迹,Ai2 称这是“迄今为止公开的最大人类网页任务执行数据集”。这涵盖了近 60 万个独立子任务,涉及超过 1100 个网站。

数据量很大,但还不足以训练模型,所以团队还使用通过无障碍树操作网站的智能体生成了合成轨迹,这对那些智能体来说更容易,因为它们无需解释截图。

训练集还包括带网站元素信息的标注截图,以及来自推理任务的超过 220 万问答对,其中模型回答了关于约 400 个网站截图的问题。

可用性

MolmoWeb 现已在 Hugging Face 和 GitHub 上提供,所有训练数据和评估工具一并公开。

本文编译自 Ai2 launches MolmoWeb, an open-source web agent,版权归原作者所有。

觉得有用?分享给更多人

获取每周 AI 工具精选

工具推荐、实战教程和生态洞察,每周更新。

相关文章

pgEdge 推出开源 MCP Server for Postgres,支持 AI 智能体通过模型上下文协议(MCP)而非传统 API 方式访问数据库。服务强调数据源无关性、完整模式自省和 token 优化,适用于 Claude Code、Cursor 等主流 AI 开发工具。

指南The New Stack·4月2日·4 分钟

Google 推出 Flex 和 Priority 两个新的推理层级,帮助开发者平衡成本与可靠性。Flex 是成本优化层级,适合后台任务,价格便宜一半;Priority 是最高保障层级,适合用户交互型应用。两者都通过同步接口调用,简化了架构管理。

指南·4月2日·3 分钟

评论