Moonlake:用游戏引擎构建因果世界模型

本文为长文精华摘要,完整内容请查看原文。
为何选择世界模型路径
Fan-yun Sun 在博士期间与 Nvidia 合作时观察到,无论是学术界还是工业界,都在为获取交互式世界数据支付高昂成本,用于训练或评估机器人、策略或模型。他认为,通往具身通用智能(Embodied General Intelligence)的道路上,模型需要学习其行为背后的后果,这意味着对交互式数据的需求呈指数级增长。
Chris Manning 补充道,尽管大语言模型(LLMs)在语言和通用智能方面取得了巨大进展,但世界远不止语言。计算机视觉领域数十年的投入虽大,但在理解层面似乎停滞不前——视觉语言模型(Vision Language Models)中,90%的工作由语言完成,视觉部分几乎不起作用。Moonlake 试图回答这个问题,相信在视觉领域的抽象符号理解层与主流仍停留在像素层面的视觉模型之间,可以建立丰富的连接。
核心论点:结构(Structure)与因果性(Causality),而非仅规模(Scale)
在一篇题为《为什么世界模型需要结构,而不仅仅是规模》的博客中,团队阐述了其效率(Efficiency)理念。
SOTA 模型仍然显示出物理或空间理解上的故障,例如固体物体漂浮在半空中或移动到其他固体物体“内部”。
如果目标是为下一个动作做计划,那么高分辨率像素视图对于世界建模来说有多必要?我们的赌注是,在经济价值高的任务中,有不成比例的大部分并不需要这样的细节。 毕竟,有各种感官限制的人类在完成世界上几乎所有事情时都没有太大困难。此外,对于大量目的,用几句话描述一个场景或情况(“汽车轮胎在急转弯时发出刺耳的声音”)对于理解和规划来说就足够了。
团队认为,如果目标是促进对多模态环境中因果关系的理解,那么世界模型——无论用于虚拟世界还是物理世界——都必须优先考虑诸如在长时间内保持的空间和物理状态一致性,以及准确反映动作后果的世界演化能力等属性。
技术路径:从游戏引擎(Game Engines)引导
游戏引擎被认为是提取因果关系的正确抽象起点。Moonlake 通过模拟环境、预测结果和进行长期规划,能够构建多种不同类型的世界模型。这种方法使其世界模型能够立即支持多玩家、高度交互、无限生命周期。
团队正在构建接口和社区(包括其新的 3 万美元 Creator Cup),以启动从动作到观察的飞轮。在 GDC 2026 上,他们已经展示了人们使用 Moonlake 工具构建的多样且灵活的世界。
关于基准测试(Benchmarking)与未来
Chris Manning 指出,为世界模型设计基准测试非常困难,就像如今基于文本的模型一样,许多任务(例如“为你下个月的欧洲之旅推荐最佳背包”)并不容易用传统基准衡量。
在招聘方面,Fan-yun Sun 表示,如果你编写过游戏引擎、在不同目标上训练过多种编码模型,或者做过多模态潜在空间对齐(Multimodal Latent Space Alignment)——特别是对齐音频、文本、语言和视频,那么 Moonlake 会非常感兴趣。团队目前约 18 人,正从圣马特奥迁往旧金山。
公司命名由来
Moonlake 的名称灵感部分来自梦工厂(Dreamworks)的标识,旨在传递一种“工业光魔”(Industrial Light & Magic)般的创意氛围,同时将创造力作为解决通用智能(GI)问题的渠道。“月亮”(Moon)部分也暗含了反射(Reflection)和自我改进循环(Self-improvement Loop)的寓意,这被认为是通往多模态通用智能(Multimodal General Intelligence)的道路。
觉得有用?分享给更多人