Ai2 开源视觉网页智能体 MolmoWeb

过去几个月,能浏览网页并替用户完成任务的 AI 智能体进步显著,但背后的模型大多仍是闭源的。
周二,艾伦人工智能研究所(Ai2)发布了 MolmoWeb,这是一个新的开源视觉网页智能体,属于 Ai2 的 Molmo 2 模型家族。
新模型提供两个尺寸:40 亿参数和 80 亿参数,体积小到能在本地运行。和 Ai2 几乎所有模型一样,团队也公开了权重、训练数据、代码(即将发布)和评估工具。
这类智能体的思路是构建一个能在网页浏览器中执行任务的系统,使用和人类一样的界面。
智能体应该能导航网站、填写表单、在购物网站搜索商品、并检索信息。
虽然像 WebMCP 这样的活跃项目旨在让智能体更容易与单个网站交互,但 MolmoWeb 这类系统会接收任务,通过查看网页截图、预测下一步操作、点击按钮、输入文本和滚动来执行。这意味着智能体应该能导航网站、填写表单、在购物网站搜索商品、并检索信息。

图片来源:Ai2。
MolmoWeb 的突出之处不仅在于体积小,还在于 Ai2 没有通过蒸馏专有的视觉智能体来训练模型。团队写道,数据来自“仅文本的无障碍树智能体生成的合成轨迹和人类演示”。
基准测试
这种方法在一些标准的浏览器使用基准测试中表现不俗。例如,MolmoWeb 的表现优于 OpenAI 的 GPT-4o(尽管后者较旧),后者依赖标注截图和结构化页面数据。在开源模型中,MolmoWeb 的 40 亿和 80 亿参数版本也超过了 Fara-7B 和 GLM-4.1V-9B 等竞争对手。

图片来源:Ai2。
不过,Anthropic、Google、OpenAI 等公司的专有模型在多数情况下仍轻松领先这些开源模型。但值得记住的是,Ai2 的部分使命未必是与这些模型竞争,而是为想了解这些系统工作原理的研究人员提供一个替代选择。
Ai2 的使命未必是与 Anthropic 或 OpenAI 竞争,而是为研究人员提供一个替代选择。
团队指出:“开源社区不仅缺乏模型,还缺乏构建有竞争力替代方案所需的训练数据、基础设施和评估工具。这种差距限制了可复现性,拖慢了研究进展,使得理解这些系统实际工作原理变得困难。在许多方面,今天的网页智能体就像大语言模型在 Olmo 之前的状态——社区需要一个开放的基础来构建。”
MolmoWeb 的训练数据
MolmoWeb 的训练集包含 3 万条人类任务轨迹,Ai2 称这是“迄今为止公开的最大人类网页任务执行数据集”。这涵盖了近 60 万个独立子任务,涉及超过 1100 个网站。
数据量很大,但还不足以训练模型,所以团队还使用通过无障碍树操作网站的智能体生成了合成轨迹,这对那些智能体来说更容易,因为它们无需解释截图。
训练集还包括带网站元素信息的标注截图,以及来自推理任务的超过 220 万问答对,其中模型回答了关于约 400 个网站截图的问题。
可用性
MolmoWeb 现已在 Hugging Face 和 GitHub 上提供,所有训练数据和评估工具一并公开。
觉得有用?分享给更多人