Moonlake:用游戏引擎构建因果世界模型

深度Latent Space2026年4月2日4 分钟阅读
Moonlake:用游戏引擎构建因果世界模型
Moonlake AI 创始人 Chris Manning 和 Fan-yun Sun 认为,构建高效、可交互、多模态的世界模型(World Models)需要结构(Structure)和因果性(Causality),而不仅仅是规模(Scale)。他们从游戏引擎(Game Engines)入手,通过智能体(Agents)引导,构建能长期运行、支持多玩家的交互式世界。

本文为长文精华摘要,完整内容请查看原文。

为何选择世界模型路径

Fan-yun Sun 在博士期间与 Nvidia 合作时观察到,无论是学术界还是工业界,都在为获取交互式世界数据支付高昂成本,用于训练或评估机器人、策略或模型。他认为,通往具身通用智能(Embodied General Intelligence)的道路上,模型需要学习其行为背后的后果,这意味着对交互式数据的需求呈指数级增长。

Chris Manning 补充道,尽管大语言模型(LLMs)在语言和通用智能方面取得了巨大进展,但世界远不止语言。计算机视觉领域数十年的投入虽大,但在理解层面似乎停滞不前——视觉语言模型(Vision Language Models)中,90%的工作由语言完成,视觉部分几乎不起作用。Moonlake 试图回答这个问题,相信在视觉领域的抽象符号理解层与主流仍停留在像素层面的视觉模型之间,可以建立丰富的连接。

核心论点:结构(Structure)与因果性(Causality),而非仅规模(Scale)

在一篇题为《为什么世界模型需要结构,而不仅仅是规模》的博客中,团队阐述了其效率(Efficiency)理念。

SOTA 模型仍然显示出物理或空间理解上的故障,例如固体物体漂浮在半空中或移动到其他固体物体“内部”。

如果目标是为下一个动作做计划,那么高分辨率像素视图对于世界建模来说有多必要?我们的赌注是,在经济价值高的任务中,有不成比例的大部分并不需要这样的细节。 毕竟,有各种感官限制的人类在完成世界上几乎所有事情时都没有太大困难。此外,对于大量目的,用几句话描述一个场景或情况(“汽车轮胎在急转弯时发出刺耳的声音”)对于理解和规划来说就足够了。

团队认为,如果目标是促进对多模态环境中因果关系的理解,那么世界模型——无论用于虚拟世界还是物理世界——都必须优先考虑诸如在长时间内保持的空间和物理状态一致性,以及准确反映动作后果的世界演化能力等属性。

技术路径:从游戏引擎(Game Engines)引导

游戏引擎被认为是提取因果关系的正确抽象起点。Moonlake 通过模拟环境、预测结果和进行长期规划,能够构建多种不同类型的世界模型。这种方法使其世界模型能够立即支持多玩家、高度交互、无限生命周期。

团队正在构建接口和社区(包括其新的 3 万美元 Creator Cup),以启动从动作到观察的飞轮。在 GDC 2026 上,他们已经展示了人们使用 Moonlake 工具构建的多样且灵活的世界。

关于基准测试(Benchmarking)与未来

Chris Manning 指出,为世界模型设计基准测试非常困难,就像如今基于文本的模型一样,许多任务(例如“为你下个月的欧洲之旅推荐最佳背包”)并不容易用传统基准衡量。

在招聘方面,Fan-yun Sun 表示,如果你编写过游戏引擎、在不同目标上训练过多种编码模型,或者做过多模态潜在空间对齐(Multimodal Latent Space Alignment)——特别是对齐音频、文本、语言和视频,那么 Moonlake 会非常感兴趣。团队目前约 18 人,正从圣马特奥迁往旧金山。

公司命名由来

Moonlake 的名称灵感部分来自梦工厂(Dreamworks)的标识,旨在传递一种“工业光魔”(Industrial Light & Magic)般的创意氛围,同时将创造力作为解决通用智能(GI)问题的渠道。“月亮”(Moon)部分也暗含了反射(Reflection)和自我改进循环(Self-improvement Loop)的寓意,这被认为是通往多模态通用智能(Multimodal General Intelligence)的道路。

觉得有用?分享给更多人

获取每周 AI 工具精选

工具推荐、实战教程和生态洞察,每周更新。

相关文章

Simon Willison 正在重构 LLM Python 库的抽象层,以支持服务器端工具执行等新功能。他利用 Claude Code 分析了四大 LLM 提供商的客户端库,生成了用于测试的 curl 命令和 JSON 输出。这些调研材料已开源,旨在帮助设计更通用的 API 抽象。

深度Simon Willison·4月5日·1 分钟

智能体技能——包含程序性知识和可执行资源的结构化包,供智能体在推理时动态加载——已成为增强 LLM 智能体的可靠机制。然而,推理时技能增强存在根本性限制:检索噪声引入无关指导,注入的技能内容带来大量 token 开销,而模型从未真正习得它所遵循的知识。我们提出一个问题:技能是否可以被内化到模型参数中,使其在无需任何运行时技能检索的情况下实现零样本自主行为?我们提出 Skill0,一个专为技能内化设计的上下文强化学习框架。Skill0 引入了一种训练时课程,从提供完整技能上下文开始,逐步撤除。技能按类别离线分组,并与交互历史一起渲染为紧凑的视觉上下文,教授模型工具调用和多轮任务完成。动态课程机制…

深度·4月5日·17 分钟

评论