3DLLM-Mem:具身3D大语言模型的长时空记忆系统

深度2025年5月28日32 分钟阅读
最有趣的发现是:通过工作记忆令牌选择性融合时空特征,模型能在多房间3D环境中实现高效记忆管理。这篇论文适合具身AI、3D场景理解和大语言模型应用的研究者阅读,特别是关注智能体长期规划与记忆机制的学者。

1 引言

想象你身处一个陌生的家中,如图1所示,需要探索多个房间并评估各种礼品盒,以找到最适合包装泰迪熊的那个。当你从一个房间移动到另一个房间时,大脑会本能地构建环境的3D认知地图,维持对已遇到物体的工作记忆,形成连接跨时空观察的情景记忆,并规划高效的行动。这种3D空间理解、长时记忆编码与检索、工作记忆与情景记忆之间的流畅切换,以及有目的的行动规划的无缝整合——这些人类视为理所当然的认知过程——对当今的具身AI系统而言仍是巨大挑战。

近期,大型语言模型(LLMs)向3D环境的扩展催生了能够感知和推理3D空间的3D-LLMs(Hong et al., 2023b; Guo et al., 2023; Gu et al., 2024; Huang et al., 2024b; Xu et al., 2025a),而3D视觉-语言-动作模型(Zhen et al., 2024; Zhao et al., 2025; Intelligence et al., 2025)进一步赋予了在这些环境中规划和行动的能力。尽管取得了这些进展,现有模型仍存在几个关键局限,使其无法完成上述类型的任务。

首先,当前模型在执行跨多个视觉场景(例如房屋中的多个房间)和长时间跨度的复杂任务时,难以维持长时记忆链。真实世界的3D物理场景极其广阔且信息密集,每个细节都可能对长视野具身任务至关重要——例如,在图1中,找到最合适的礼品盒需要记住沿途遇到的所有礼品盒及其特征,以及与泰迪熊的交互。密集3D表征尤其有价值,因为它们捕捉了全面的空间信息,保留了稀疏或面向对象方法可能遗漏的复杂几何关系和环境细节。然而,如何准确高效地存储密集3D记忆仍是一个根本性挑战——检索整个历史会超出模型的上下文限制,而选择性检索(Xie et al., 2024; Wang et al., 2024; Yang et al., 2025b)则可能遗漏准确推理和决策所需的关键信息。第二个挑战在于空间与时间记忆的纠缠——智能体不仅需要追踪物体的位置,还需追踪它们如何随时间通过探索和交互发生变化。随着环境演变,在整合新信息的同时保持对先前所见空间的一致性表征,仍然超出了当前具身AI模型的能力范围。

我们通过两方面努力应对这一挑战。首先,我们引入了一个用于具身环境中长时时空记忆推理、规划和行动的新基准。我们的基准3DMem-Bench包含来自Habitat环境的多房间3D场景,并增加了可交互物体以支持跨长时空视野的操作任务。值得注意的是,我们定义了从简单到困难不同难度级别的细粒度具身任务,从而能更深入地洞察模型性能,我们认为这在先前的基准中未得到充分解决,如表1所示。我们的任务集涵盖了广泛的复杂度,从简单的物体收集到需要整合跨多个房间和时间步观察的挑战性比较推理任务。此外,我们引入了野外挑战任务,以评估模型在未见环境上的泛化能力。该基准包含三个评估类别:(1)需要跨多个房间执行扩展行动序列的具身任务,(2)评估随时间变化的空间关系理解的时空具身问答(EQA),以及(3)测试对先前观察环境记忆的长时场景描述。我们的数据集包含超过26,000条轨迹示例,涵盖182个以上独特场景,平均每个场景有18个房间。

其次,我们提出了3DLLM-Mem,这是一个具有动态记忆管理能力的3D具身LLM,专为具身时空推理、规划和行动而设计。据我们所知,我们是首批探索将密集3D表征作为具身3D LLMs记忆的研究之一——这解决了近期3D记忆研究(Yang et al., 2025b)中指出的当前研究中的一个显著空白。与仅依赖上下文窗口的标准方法(Hong et al., 2023b; Huang et al., 2024b; Zhu et al., 2024)不同,3DLLM-Mem实现了一个双记忆系统:一个用于当前观察的有限容量工作记忆,以及一个可扩展的情景记忆,用于将过去的时空信息存储为密集3D表征。关键创新在于我们的记忆融合模块,它根据任务相关性和时空关系,主动整合来自两个记忆系统的信息。这使得模型能够利用密集3D表征的优势,同时减轻其计算需求,在扩展的任务视野中保持一致的时空理解。融合过程保留了关键的空间关系,并考虑了它们随时间通过智能体交互而发生的变化。

我们在3DMem-Bench上评估了流行的3D-LLMs和记忆机制。实验结果表明,3DLLM-Mem在领域内和野外具身任务中均显著优于所有现有方法。值得注意的是,在具有挑战性的野外设置中,其他方法的性能急剧下降,而我们的方法保持稳健,平均成功率达到32.1%——显示出强大的泛化能力。随着任务复杂度从简单增加到困难,所有现有方法的性能显著下降,在困难的野外任务中成功率仅约5%。相比之下,3DLLM-Mem保持了27.8%的强劲性能,证明了其在管理长时记忆表征方面的可扩展性和有效性。

我们的贡献总结如下:

  • 我们提出了一项新任务,要求智能体在执行行动链的同时维持并利用长时时空记忆。
  • 我们构建了3DMem-Bench,一个全面的基准,包含超过26,000条轨迹和1,860个从简单到困难的细粒度长时记忆具身任务,以及针对跨时空记忆变化的问答任务和复杂3D环境中的描述任务。
  • 我们提出了3DLLM-Mem,一个具有新颖记忆融合模块的具身3D LLM,用于时空推理、规划和行动——它利用工作记忆令牌作为查询,选择性地融合情景记忆中的相关特征,以实现高效、任务感知的决策。
  • 在具身任务、问答和描述上的实验结果表明,3DLLM-Mem大幅优于基线模型。

2 具身三维长时时空记忆基准

Figure 2: Overview of 3DMem-Bench. For long-term memory embodied tasks, we further incorporate in-the-wild challenges to test 3D agent’s generalization abilities. Text inside < > indicates high-level action tokens. For complete embodied task trajectories, please refer to Appendix C.

2.1 3DMem-Bench 概览

[Table 1: Comparison with related benchmarks. 3DMem-Bench focus on spatial-temporal memory through fine-grained embodied tasks and EQA that span multiple “pieces” of long-term memory, distinguishing it from prior benchmarks that typically target single-step or short-horizon reasoning. Fine-grained complexity indicates our embodied task spans from simple to medium to hard.]

设计原则

长时记忆(Camina and Güell, 2017; Friedman et al., 2018; Zlotnik and Vansintjan, 2019)可分为外显记忆和内隐记忆。外显记忆包括语义记忆(存储关于世界的一般知识和事实)和情景记忆(由带有时间戳和特定情境的个人经历构成)。相比之下,内隐记忆主要涉及程序性记忆,例如习得的技能和习惯。

为了全面评估面向真实世界应用的三维长时记忆能力,我们围绕三个核心任务类别设计了 3DMem-Bench:具身任务、长时记忆 EQA 和描述任务。如图 2 所示,具身任务要求具身智能体利用内隐和外显长时记忆,解决现实室内环境中的挑战。长时记忆 EQA 测试智能体利用时空记忆回答复杂具身问题的能力,包含五个子类别:空间推理问题、长时目标导航、比较推理、多房间布局理解和语义目标计数。描述任务涉及总结智能体的情景记忆,以突出不同经历间的共同点和差异性特征,从而在当前任务背景下做出更明智的决策。

2.2 数据收集

基础环境构建

我们在 Habitat-Matterport 3D(HM3D)语义数据集(Ramakrishnan et al., 2021)的基础上构建场景,该数据集包含 1000 个三维空间和其中的 10,600 个房间。通过对轴对齐边界框进行预处理并使用有效的语义标签标注,我们筛选出 182 个三维空间和 2,602 个房间。然而,HM3D 场景中的现有物体在 Habitat-sim(Szot et al., 2021)中不具备交互性。为了扩展任务多样性并支持具身任务,我们从 Objaverse(Deitke et al., 2023)添加了交互式物体,该数据集包含 80 万个涵盖丰富类别的三维物体。更多环境构建细节见附录 B。

生成任务轨迹

遵循 Hong et al. (2023b, 2024) 的方法,我们采用基于边界框演示指令的提示方法,利用三维场景中房间和物体的轴对齐边界框来提示 Gemini(Team et al., 2023)生成多样化的任务。我们进一步提示 Gemini,根据任务要求及其在室内环境中的适用性,纳入交互式物体。详细的提示指令和少样本演示示例见附录 E。为确保生成轨迹的有效性,我们开发了一个轨迹模拟流水线,用于逐步验证每条轨迹。在每一步,模拟器检查:(1)智能体位置的正确性,(2)所引用物体的存在性和有效性,以及(3)拾取和放置动作的正确性。最后,我们确保高层级动作可以在模拟器中执行,遵循(Szot et al., 2024; Yang et al., 2025a)。该实现的细节见附录 F.1。平均而言,我们的过滤过程产生了约 24% 的验证通过率,确保了生成轨迹的正确性和可行性。

具身数据收集

在我们的任务设置中,具身智能体首先在环境中进行随机探索,收集 RGB-D 观测数据和相应的相机位姿。然后,智能体遵循任务轨迹,逐步探索新环境,执行交互动作,并接收带有新 RGB-D 观测数据的反馈。所有交互结果均被记录,重建的点云数据被预先计算并存储在本地,以便在训练和推理期间实现更快的加载。

2.3 数据整理

如前所述,我们通过提示 Gemini 来收集具身数据。为了对长时记忆能力进行细粒度分析,我们将任务分为三个子类别:简单、中等和困难,分别对应 3 个、5 个和 10 个多房间场景设置。我们总共收集了 51K 条轨迹,其中简单设置 31K 条,中等设置 10K 条,困难设置 10K 条。

为了构建领域内评估集,我们首先移除训练任务,并过滤那些从未出现在智能体工作记忆中的实例。对于开放环境评估集,我们应用额外的过滤来评估智能体的泛化能力。具体来说,我们选择涉及未见过的物体和完全未见过的记忆上下文的实例,并引入与训练期间遇到的不同、新颖的开放环境挑战,如图 2 所示。

对于 EQA 数据整理,我们提取智能体探索的完整轨迹,然后提示 Gemini 生成问答对。问题分为空间推理、长时目标导航、比较推理、多房间布局理解和语义目标计数。如图 2 所示,这些问题评估模型在执行具身任务期间记忆中的时空变化。对于主要针对语义情景记忆的长时记忆描述任务,我们在每条轨迹执行前后的多个房间中收集数据,以便对与记忆相关的经历进行比较和总结。

质量控制

构建完整基准后,我们实施了两个质量控制流程:使用轨迹模拟规则进行自动验证,以及对每个基准实例进行人工审查。自动检查涉及重新运行轨迹模拟验证流水线,如 §2.2 所述,特别是针对开放环境任务。对于人工验证,由该领域的四名学生专家手动检查每个基准示例。我们使用模拟器渲染整个场景的多视角图像,并验证基准标注是否与模拟环境准确对应。更多细节见附录 F.2。

2.1 3DMem-Bench 概览

[表 1:与相关基准的比较。3DMem-Bench 通过细粒度的具身任务和跨越多个“片段”长期记忆的具身问答(EQA)来关注时空记忆,这使其区别于通常针对单步或短视距推理的先前基准。细粒度复杂性表明我们的具身任务涵盖从简单、中等至困难的跨度。]

设计原则

长期记忆(Camina and Güell, 2017; Friedman et al., 2018; Zlotnik and Vansintjan, 2019)可分为外显记忆和内隐记忆。外显记忆包括语义记忆(存储关于世界的一般知识和事实)和情景记忆(包含有时间戳和特定情境的个人经历)。相比之下,内隐记忆主要涉及程序性记忆,例如习得的技能和习惯。

为了全面评估面向实际应用的 3D 长期记忆,我们设计了 3DMem-Bench,包含三个核心任务类别:具身任务、长期记忆具身问答和描述生成。如图 2 所示,具身任务要求具身智能体利用内隐和外显长期记忆来解决现实室内环境中的挑战。长期记忆具身问答测试智能体利用时空记忆回答复杂具身问题的能力,包含五个子类别:空间推理问题、长期物体导航、比较推理、多房间布局理解和语义物体计数。描述生成任务涉及总结智能体的情景记忆,以突出不同经历之间的共同和独特特征,从而在当前任务背景下做出更明智的决策。

2.2 数据收集

基础环境构建

我们在 Habitat-Matterport 3D (HM3D) 语义数据集(Ramakrishnan et al., 2021)的基础上构建场景,该数据集包含 1000 个 3D 空间和其中的 10,600 个房间。通过对轴对齐边界框进行预处理并使用有效的语义标签标注,我们筛选出 182 个 3D 空间和 2,602 个房间。然而,HM3D 场景中的现有物体在 Habitat-sim(Szot et al., 2021)中是不可交互的。为了扩展任务多样性并支持具身任务,我们从 Objaverse(Deitke et al., 2023)添加了可交互物体,该数据集包含 80 万个涵盖丰富类别的 3D 物体。更多环境构建细节见附录 B。

任务轨迹生成

遵循 Hong et al. (2023b, 2024) 的方法,我们采用基于边界框-演示-指令的提示方法,利用 3D 场景中房间和物体的轴对齐边界框(AABB)来提示 Gemini(Team et al., 2023)生成多样化的任务。我们进一步提示 Gemini,根据任务要求及其在室内环境中的适用性来纳入可交互物体。详细的提示指令和少样本演示示例见附录 E。为确保生成轨迹的有效性,我们开发了一个轨迹模拟流水线,对每条轨迹进行逐步验证。在每一步,模拟器检查:(1) 智能体位置是否正确,(2) 被引用物体是否存在且有效,以及 (3) 拾取和放置动作是否正确。最后,我们确保高级动作可以在模拟器中执行,遵循(Szot et al., 2024; Yang et al., 2025a)的方法。此实现的细节见附录 F.1。平均而言,我们的过滤过程产生约 24% 的验证率,确保了生成轨迹的正确性和可行性。

具身数据收集

在我们的任务设置中,具身智能体首先在环境中进行随机探索,以收集 RGB-D 观测数据和相应的相机位姿。随后,智能体遵循任务轨迹,逐步探索新环境、执行交互动作,并接收带有新 RGB-D 观测数据的反馈。所有交互结果均被记录,重建的点云数据被预计算并存储在本地,以便在训练和推理期间实现更快的加载。

具身数据采集

在我们的任务设定中,具身智能体首先在环境中进行随机探索,以收集RGB-D观测数据及对应的相机位姿。随后,智能体遵循任务轨迹,逐步探索新环境,执行交互动作,并接收包含新RGB-D观测数据的反馈。所有交互结果均被记录,重建的点云数据会预先计算并存储在本地,以便在训练和推理阶段实现更快的加载。

2.3 数据整理

如前所述,我们通过提示Gemini来采集具身数据。为了对长时记忆能力进行细粒度分析,我们将任务划分为三个子类别:简单、中等和困难,分别包含3个、5个和10个多房间场景设定。我们总共采集了51K条轨迹,其中简单设定31K条,中等和困难设定各10K条。

为了构建领域内评估集,我们首先移除训练任务,并筛选出从未在智能体工作记忆中出现的实例。对于开放域评估集,我们应用了额外的筛选来评估智能体的泛化能力。具体而言,我们选取涉及未见过的物体及完全未见过的记忆上下文的实例,并引入与训练期间遇到的不同、全新的开放域挑战,如图2所示。

对于EQA数据整理,我们提取智能体探索的完整轨迹,然后提示Gemini生成问答对。问题被分为空间推理、长时物体导航、比较推理、多房间布局理解和语义物体计数等类别。如图2所示,这些问题评估模型在执行具身任务期间记忆中的时空变化。对于主要针对语义情景记忆的长时记忆描述任务,我们在每条轨迹执行前后采集多个房间的数据,以便对与记忆相关的经历进行比较和总结。

质量管控

在构建完整基准后,我们实施了两项质量管控流程:基于轨迹模拟规则的自动验证,以及对每个基准实例的人工审核。自动检查涉及重新运行轨迹模拟验证流程(如§2.2所述),特别是针对开放域任务。对于人工验证,四位该领域的学生专家手动检查每个基准示例。我们使用模拟器渲染整个场景的多视角图像,并验证基准标注是否与模拟环境准确对应。更多细节见附录F.2。

3 三维长时时空记忆模型 (3DLLM-Mem)

Figure 3: (a) We propose 3DLLM-Mem, a memory-enhanced 3D embodied agent that gradually form its long-term memory while executing tasks. Multiple timesteps are shown together but in different colors, with each timestep’s memory including the prior one. The task is “prepare a simple breakfast” as shown in Figure 2. (b) Overview of our memory fusion mechanism.

3.1 预备知识

近期关于三维大语言模型(3D-LLMs)的研究已展现出强大的能力。我们选择 LLaVA-3D(Zhu et al., 2024)作为基础模型来构建我们的长时记忆 3D-LLM。LLaVA-3D 直接基于 2D-LLM,以多视角图像作为输入,并利用三维位置嵌入将二维图像块置于三维空间上下文中,从而构建三维图像块。对于每一帧图像,CLIP 编码器将图像 $X\in\mathbb{R}^{3\times W\times H}$ 按块大小 $P$ 分割成图像块。对于每个三维场景,$V$ 个多视角图像块特征被编码,然后投影到 LLM 空间,得到 $X_{p}\in\mathbb{R}^{V\times d\times w\times h}$,其中 $h=\left\lfloor\frac{H}{P}\right\rfloor,w=\left\lfloor\frac{W}{P}\right\rfloor$,$d$ 代表 LLM 的隐藏维度。 三维世界中的位置通过已知的深度图像、相机内参和外参获得,并进一步编码为三维位置嵌入 $P\in\mathbb{R}^{V\times d\times w\times h}$。这些嵌入直接与二维图像块视觉标记 $X_{p}$ 相加,得到像素对齐的三维图像块 $X_{3D}\in\mathbb{R}^{V\times d\times w\times h}$。为了减少三维图像块的冗余,我们采用最远点采样(FPS)策略对三维特征进行下采样,得到固定数量的标记 $X_{\text{3D Feat}}\in\mathbb{R}^{N\times d}$。

3.2 3DLLM-Mem 记忆模块

三维具身智能体通过收集观察结果并与周围环境交互,逐步探索环境。对人类而言,当前的观察信息保存在工作记忆中,而更长期的观察和经验则存储在情景记忆中。受人类认知结构启发,3DLLM-Mem 采用了如图3所示的类似范式。时间步 $t=i$ 时的当前观察 $X^{[t=i]}\in\mathbb{R}^{N\times d}$ 保持在上下文窗口内,作为智能体的工作记忆。随着智能体积累更多经验,从时间步 $1$ 到 $T$ 的过往观察 $X^{[t=1:T]}\in\mathbb{R}^{T\times N\times d}$ 被存储为其情景记忆的一部分,其中 $T$ 表示总时间步数。

情景记忆

为了管理情景记忆,我们提出使用一个记忆特征库。对于时间步 $j$(其中 $1\leq j\leq T$)的每个观察,我们首先应用一个多层感知机(MLP)层将观察投影到一个记忆专用的特征空间,然后将其存储在记忆库中以供未来检索。为了进一步增强智能体对探索过程的时间理解,我们引入了正弦位置嵌入来编码每个时间步 $t=j$,然后直接将其添加到相应的记忆特征表示中。

记忆融合

我们的动机是,智能体应利用其当前观察,从情景记忆中回忆最相关的信息以完成当前任务。为此,我们提出一种称为三维记忆融合的机制。具体而言,我们将工作记忆中的三维特征编码到一个共享的记忆空间中,并将此表示用作查询特征,记为 $f_{t}^{Q}\in\mathbb{R}^{N\times M}$,其中 $M$ 是记忆特征空间的维度。

情景记忆库存储来自过往观察的对应键和值特征:分别为 $f^{K}\in\mathbb{R}^{T\times N\times M}$ 和 $f^{V}\in\mathbb{R}^{T\times N\times M}$。这里,$T$ 是过往时间步数,$N$ 是每个时间步的记忆标记数。这种结构使得智能体能够通过记忆-查询注意力检索与任务相关的信息。融合后的记忆特征随后与工作记忆特征拼接,为智能体生成最终的记忆增强表示 $f^{M}$:

$$ f_{\text{fuse}}^{Q}=\mathrm{Softmax}\left(\frac{f_{t}^{Q}(f^{K})^{\top}}{\sqrt{C}}\right)f^{V},\quad f^{M}=\mathrm{Concat}\left[f_{\text{fuse}}^{Q};f_{t}^{Q}\right] $$

(1)

记忆更新

工作记忆是动态的,并在线更新。随着智能体与环境交互,环境的变化会通过更新的三维表示立即反映在工作记忆中。当智能体移动到新环境时,先前的工作记忆会转移到情景记忆库中。如果记忆库中已存在对应环境且已被智能体修改,则相应记忆条目会随之更新。因此,记忆库保持动态,并反映已探索环境的最新状态。如 §2.2 所述,环境变化及相应的观察数据会预先收集并存储在本地,以便在训练和推理期间实现高效的数据加载。

3.2 3DLLM-Mem 记忆模块

一个具身3D智能体通过收集观察结果并与周围环境交互来逐步探索环境。对人类而言,当前观察被保存在工作记忆中,而长期的观察和经验则存储在情节记忆中。受人类认知结构启发,3DLLM-Mem采用了类似的设计范式,如图3所示。时间步 $t=i$ 的当前观察 $X^{[t=i]}\in\mathbb{R}^{N\times d}$ 保留在上下文窗口内,作为智能体的工作记忆。随着智能体积累更多经验,从时间步 $1$ 到 $T$ 的过往观察 $X^{[t=1:T]}\in\mathbb{R}^{T\times N\times d}$ 被存储为其情节记忆的一部分,其中 $T$ 表示总时间步数。

情节记忆

为管理情节记忆,我们提出使用一个记忆特征库。对于时间步 $j$(其中 $1\leq j\leq T$)的每个观察,我们首先应用一个多层感知机(MLP)层将观察投影到一个记忆专用的特征空间,然后将其存储在记忆库中以供未来检索。为进一步增强智能体对探索过程的时间性理解,我们引入正弦位置编码来编码每个时间步 $t=j$,并将其直接加到相应的记忆特征表示上。

记忆融合

我们的动机是,智能体应利用其当前观察,从情节记忆中回忆最相关的信息以完成当前任务。为此,我们提出一种称为3D记忆融合的机制。具体而言,我们将工作记忆中的3D特征编码到一个共享的记忆空间中,并将此表示用作查询特征,记为 $f_{t}^{Q}\in\mathbb{R}^{N\times M}$,其中 $M$ 是记忆特征空间的维度。

情节记忆库存储来自过往观察的对应键和值特征:分别为 $f^{K}\in\mathbb{R}^{T\times N\times M}$ 和 $f^{V}\in\mathbb{R}^{T\times N\times M}$。这里,$T$ 是过去时间步的数量,$N$ 是每个时间步的记忆令牌数量。这种结构使得智能体能够通过记忆-查询注意力检索任务相关信息。融合后的记忆特征随后与工作记忆特征拼接,为智能体生成最终的记忆增强表示 $f^{M}$:

$$ f_{\text{fuse}}^{Q}=\mathrm{Softmax}\left(\frac{f_{t}^{Q}(f^{K})^{\top}}{\sqrt{C}}\right)f^{V},\quad f^{M}=\mathrm{Concat}\left[f_{\text{fuse}}^{Q};f_{t}^{Q}\right] $$

(1)

记忆更新

工作记忆是动态的,并在线更新。当智能体与环境交互时,环境的变化会通过更新的3D表示立即反映在工作记忆中。当智能体移动到新环境时,先前的工作记忆会被转移到情节记忆库中。如果对应环境已存在于记忆库中且已被智能体修改,则相应的记忆条目会相应更新。因此,记忆库保持动态,并反映已探索环境的最新状态。如 §2.2 所述,环境变化及相应的观察数据会预先收集并本地存储,以便在训练和推理期间实现高效的数据加载。

4 实验

本节首先在 §4.1 中介绍实验设置和现有的记忆管理基线方法。随后,我们在 3DMem-Bench 上对现有方法进行基准测试,并在 §4.2 中展示在具身任务、EQA 和描述任务上的综合结果,以证明我们提出的 3DLLM-Mem 的有效性,同时提供定性结果。最后,在 §4.3 中,我们对 3DLLM-Mem 中的关键设计选择进行消融研究,以证明我们提出的记忆融合机制的有效性。

[(a)在 3DMem-Bench 具身任务上的结果。SR 代表成功率。Sub-SR 代表子任务成功率。我们的模型大幅超越现有方法。(b)在 3DMem-Bench 所有任务上的结果。对于具身任务报告平均成功率。Nav. 代表长期物体导航。对于开放式 EQA 评估,我们报告准确率分数,并遵循标准的 LLM-as-judge 评估协议,通过提示 Gemini 进行。评估细节见附录 E。 表 2:与 3D 记忆模型和标准记忆管理方法的比较。我们的模型 3DLLM-Mem 在具身、EQA 和描述任务上均取得了最佳性能。]

4.1 实验设置

实现细节 我们的模型基于 LLaVA-3D (Zhu et al., 2024) 实现,并对其进行修改以兼容 Google TPU 和 PyTorch/XLA 框架 (Paszke et al., 2019; team, 2017–2025)。我们首先将模型的上下文窗口扩展到 8192 个 token,以容纳长期记忆输入。然后,我们使用训练数据分割,对我们提出的记忆模块以及 LLM 解码器进行微调,初始化权重来自 LLaVA-3D 的预训练权重。训练在 8 个 Google Cloud TPU v5p 核心上进行,批次大小为 256。我们的模型使用监督微调(SFT)和标准的语言建模损失进行训练。更多细节见附录 D。

基线方法 我们将 3DLLM-Mem 与多种记忆管理方法进行比较:

  • 全上下文:对于一小部分场景,可以将所有观测直接放入模型的上下文窗口中。
  • 最近记忆:由于将所有观测保留在上下文中不可行,我们仅保留最近的观测,假设它们与当前任务最相关。
  • 检索增强记忆:受基于检索的技术启发,我们采用一个存储过去观测的记忆库。在推理过程中,检索最相关的记忆条目并将其附加在工作记忆之前,以增强推理。
  • 3D-LLM (Hong et al., 2023b):一个受社区认可的流行 3D LLM。我们在训练数据上对其进行微调,并使用其支持的最长上下文窗口,报告其采用“全上下文”策略的性能。更多细节见附录 G。
  • 3D-Mem (Yang et al., 2025b):一个为具身探索和推理中的 3D 场景记忆设计的框架。然而,该方法不支持具身交互或动作执行。

4.2 实验结果

具身任务结果 如表 2(a) 所示,3DLLM-Mem 在领域内和开放域具身任务上均显著优于所有现有方法。值得注意的是,当其他方法在开放域设置下性能急剧下降时,我们的方法展示了强大的泛化能力,平均成功率达到 32.1%。3D-LLM 即使在简单任务设置下也表现出最低的性能,凸显了引入显式记忆模块的必要性。最近记忆和检索增强记忆(RAG)基线在此设置下表现不佳,RAG 仅显示出轻微改进,这突显了检索相关情景记忆的挑战。有趣的是,全上下文基线的表现优于最近记忆和 RAG 方法,这表明当所有信息都能放入上下文窗口时,模型可以有效地利用它们。然而,3DLLM-Mem 仍然优于全上下文基线,这表明选择性融合与任务相关的记忆特征能更好地指导具身推理和执行。随着任务复杂度从简单增加到困难,所有现有方法的性能都显著下降,在困难的开放域任务中成功率仅为 ∼5%。相比之下,3DLLM-Mem 保持了 27.8% 的强劲性能,证明了其在管理长期记忆表示方面的可扩展性和有效性。

长期 EQA 和描述任务结果 如表 2(b) 所示,3DLLM-Mem 在我们的基准测试的所有任务中始终优于所有现有方法。值得注意的是,3D-LLM 在描述任务上取得了第二好的性能,突显了其总结以对象为中心的语义记忆的强大能力。然而,由于上下文长度有限,它在需要长期时空推理的 EQA 任务上表现不佳。3D-Mem 在 EQA 上的表现优于其他基线方法。但是,它在空间关系、导航和物体计数任务上表现不足,这表明仅依赖聚合的以图像为中心的记忆存在局限性。3DLLM-Mem 显著优于最近记忆和 RAG 记忆,这进一步证明了我们记忆融合技术的有效性。

定性结果 我们在图 4 中提供了定性示例,并在图 6(附录 H)中提供了带有解释的更详细版本,展示了 3DLLM-Mem 能够在具身环境中维持长期记忆并执行复杂任务。

图 4:3DLLM-Mem 的定性示例,它维持并利用长期记忆完成任务。详细的任务执行轨迹见图 6。

4.3 消融研究

我们的方法使用工作记忆特征初始化融合记忆,旨在为当前任务融合最相关的记忆。如表 3 所示,我们对初始化融合查询的几种设计选择进行了消融。当使用最近的情景记忆或可学习的零参数时,性能均低于我们提出的方法。有趣的是,在简单设置下,使用最近记忆初始化优于零初始化,但在困难设置下表现较差。一个可能的解释是,最近记忆初始化鼓励与附近观测进行融合,这对于简单任务可能足够,并能带来更快的收敛。相比之下,零初始化完全由训练监督引导,以学习哪些记忆最有用。总之,消融结果表明,使用工作记忆 token 初始化融合查询是为长期记忆融合提供最有效、最稳健的设计选择。

4.1 实验设置

实现细节

我们的模型基于 LLaVA-3D (Zhu et al., 2024) 实现,并对其进行修改以兼容 Google TPU 和 PyTorch/XLA 框架 (Paszke et al., 2019; team, 2017–2025)。我们首先将模型的上下文窗口扩展至 8192 个 token,以容纳长期记忆输入。随后,我们使用训练集对提出的记忆模块和 LLM 解码器进行微调,权重初始化自 LLaVA-3D 的预训练权重。训练在 8 个 Google Cloud TPU v5p 核心上进行,批大小为 256。模型采用监督微调(SFT)和标准的语言建模损失进行训练。更多细节见附录 D。

基线方法

我们将 3DLLM-Mem 与多种记忆管理方法进行比较:

  • 全上下文记忆。对于一小部分场景,可以将所有观测直接放入模型的上下文窗口中。
  • 最近记忆。由于将所有观测保留在上下文中不可行,我们仅保留最近的观测,假设它们与当前任务最相关。
  • 检索增强记忆。受基于检索的技术启发,我们采用一个存储过去观测的记忆库。在推理时,检索最相关的记忆条目并将其附加在工作记忆之前,以增强推理能力。
  • 3D-LLM (Hong et al., 2023b)。一个受社区认可的流行 3D LLM。我们在训练数据上对其进行微调,并使用其支持的最长上下文窗口下的“全上下文记忆”策略报告其性能。更多细节见附录 G。
  • 3D-Mem (Yang et al., 2025b)。一个为具身探索和推理中的 3D 场景记忆设计的框架。然而,该方法不支持具身交互或动作执行。

4.2 实验结果

具身任务结果

如表2(a)所示,3DLLM-Mem 在领域内和开放世界具身任务上均显著优于所有现有方法。值得注意的是,在其他方法的性能在开放世界设置下急剧下降时,我们的方法展现出强大的泛化能力,平均成功率达到 32.1%。3D-LLM 即使在简单任务设置下也表现出最低的性能,凸显了引入显式记忆模块的必要性。

最近记忆和检索增强记忆(RAG)基线在此设置下表现均不佳,RAG 仅显示出轻微改进,这突显了检索相关情景记忆的挑战。有趣的是,全上下文记忆基线的表现优于最近记忆和 RAG 方法,这表明当所有信息都能放入上下文窗口时,模型可以有效利用它们。然而,3DLLM-Mem 仍然优于全上下文记忆,表明选择性融合任务相关记忆特征能更好地指导具身推理与执行。随着任务复杂度从简单增加到困难,所有现有方法的性能均显著下降,在困难的开放世界任务中成功率仅为 ∼5%。相比之下,3DLLM-Mem 保持了 27.8% 的强劲性能,证明了其在管理长期记忆表征方面的可扩展性和有效性。

长期 EQA 与描述任务结果

如表2(b)所示,3DLLM-Mem 在我们的基准测试的所有任务中均一致优于所有现有方法。值得注意的是,3D-LLM 在描述任务上取得了第二好的性能,突显了其总结以对象为中心的语义记忆的强大能力。然而,由于上下文长度有限,它在需要长期时空推理的 EQA 任务上表现不佳。

3D-Mem 在 EQA 任务上表现出优于其他基线方法的性能。但是,它在空间关系、导航和物体计数任务上表现不足,这表明仅依赖聚合的以图像为中心的记忆存在局限性。3DLLM-Mem 显著优于最近记忆和 RAG 记忆,进一步证明了我们记忆融合技术的有效性。

定性结果

我们在图4中提供了定性示例,并在图6(附录 H)中提供了带有解释的更详细版本,展示了 3DLLM-Mem 能够在具身环境中维持长期记忆并执行复杂任务。

图4:3DLLM-Mem 的定性示例,它维持并利用长期记忆完成任务。详细的任务执行轨迹见图6。

长时EQA与描述任务结果

如表2(b)所示,3DLLM-Mem在我们的基准测试的所有任务中均持续优于现有方法。值得注意的是,3D-LLM在描述任务上取得了第二佳的性能,突显了其总结以物体为中心的语义记忆的强大能力。然而,由于上下文长度有限,它在需要长时时空推理的EQA任务上表现不佳。 3D-Mem在EQA任务上的性能优于其他基线方法。但它在空间关系、导航和物体计数任务上表现不足,这表明仅依赖聚合的以图像为中心的记忆存在局限性。 3DLLM-Mem显著优于"最近记忆"和"RAG记忆"方法,进一步证明了我们记忆融合技术的有效性。

定性结果

我们在图4中提供了定性示例,并在附录H的图6中提供了带有解释的更详细版本,展示了3DLLM-Mem能够在具身环境中维持长时记忆并执行复杂任务。

Figure 4:
Qualitative example of 3DLLM-Mem, which maintains and utilizes a long-term memory to complete the task. Detailed task execution trajectory can be found in Figure 6.

4.3 消融实验

我们的方法使用工作记忆特征来初始化融合记忆,旨在为当前任务融合最相关的记忆。如表3所示,我们对初始化融合查询的几种设计选择进行了消融实验。当使用最近的片段记忆或可学习的零参数进行初始化时,性能均低于我们提出的方法。 有趣的是,在简单设置中,使用最近记忆初始化优于零初始化,但在困难设置中则表现较差。一种可能的解释是,最近记忆初始化鼓励与邻近观测进行融合,这对于简单任务可能已足够,并能带来更快的收敛。相比之下,零初始化则完全由训练监督引导,以学习哪些记忆最有用。 总之,消融实验结果表明,使用工作记忆标记初始化融合查询是为长时记忆融合提供最有效、最稳健的设计选择。

5 相关工作

3D大语言模型

3D大语言模型(3D-LLMs)已在包括3D场景理解、物体检测和分割在内的多种任务上展现出有前景的结果(Hong et al., 2023b; Zhou et al., 2024; Huang et al., 2024a; Chen et al., 2024b; Xu et al., 2025a)。与此同时,3D具身智能体将这些能力扩展到了交互环境中的规划与行动(Brohan et al., 2023; Huang et al., 2024b; Chen et al., 2024a; Black et al., 2024)。 然而,现有模型在执行需要长时时空记忆推理的、在密集3D环境中的长视野具身任务时,面临着重大挑战。为了解决这个问题,我们提出了一种受人类内隐和外显记忆结构启发的显式记忆模块。我们的模型采用了一种记忆融合机制,能够高效检索和学习任务相关信息,从而在复杂具身任务上获得增强的性能。

长时具身轨迹

具身AI模拟器(Chang et al., 2017; Kolve et al., 2017; Szot et al., 2021; Shen et al., 2021)促进了具身AI智能体的发展。基于这些环境,一些现有基准侧重于高层规划任务,通常涉及可在单房间设置内完成的短轨迹,因此对时空记忆的需求最小(Shridhar et al., 2020, 2021; Li et al., 2024a; Szot et al., 2024; Li et al., 2024b; Yang et al., 2025a)。 其他基准则强调具有扩展轨迹的长时场景探索,但主要围绕导航任务,并且通常缺乏具身交互支持(Deitke et al., 2020; Ramakrishnan et al., 2021; Krantz et al., 2022; Khanna et al., 2024)。 为了弥合这一差距,我们引入了3DMem-Bench,这是一个专门设计用于评估需要丰富时空记忆和完整具身任务支持的长视野任务执行的基准,如表1所总结。

具身问答基准

具身问答基准(Das et al., 2018; Wijmans et al., 2019; Yu et al., 2019)旨在推动能够感知其环境的、目标驱动的智能体发展。一些EQA基准也包括具身记忆QA评估,例如包含片段记忆QA划分的OpenEQA(Majumdar et al., 2024),以及专注于空间记忆QA的Yang et al. (2024)。相比之下,我们的基准3DMem-Bench同时针对空间和片段记忆,特别是它们随时间的变化,同时也支持具身动作任务、EQA和描述。 具体到EQA的比较,我们的长时记忆EQA任务被设计为需要推理多个"片段"的记忆及其在时间和空间上的变化。 此外,在评估过程中,我们会考虑智能体在回答每个问题时在场景中的位置。

记忆系统

记忆是AI系统的基本组成部分,早期工作是在LLM智能体的背景下进行的,这些智能体利用记忆在基于网络和沙盒环境中进行决策(Shinn et al., 2023; Zhang et al., 2023; Packer et al., 2023; Zhang et al., 2024)。大多数现有方法构建一个经验池或记忆库,并专注于改进对有用历史信息的检索(Zhao et al., 2024; Gao et al., 2024; Xu et al., 2025b)。 在计算机视觉领域,时序记忆在视频理解与生成任务中得到了广泛研究(Wang et al., 2021; Diao et al., 2025),而空间记忆则被应用于场景级视觉理解和3D重建(Wang and Agapito, 2024; Zou et al., 2025)。最近的工作,如3D-Mem(Yang et al., 2025b),通过提示视觉语言模型研究了用于探索和推理的3D场景记忆。相比之下,我们的工作侧重于密集的3D记忆表示,这对于现实世界的具身场景至关重要,因为任务执行在很大程度上依赖于维持和推理长时时空记忆。

模型简单中等困难平均
域内域外域内域外
SRSub-SRSRSub-SR
3DLLM-Mem45.573.437.065.4
使用最近片段记忆初始化42.369.428.650.7
使用可学习零参数初始化41.467.227.950.0

表3:我们记忆融合模块中查询初始化设计的消融研究。

三维大语言模型

三维大语言模型(3D-LLMs)已在多种任务中展现出潜力,包括三维场景理解、物体检测与分割(Hong et al., 2023b; Zhou et al., 2024; Huang et al., 2024a; Chen et al., 2024b; Xu et al., 2025a)。与此同时,三维具身智能体将这些能力扩展到了交互环境中的规划与行动(Brohan et al., 2023; Huang et al., 2024b; Chen et al., 2024a; Black et al., 2024)。 然而,现有模型在执行需要长期时空记忆推理的、密集三维环境中的长视野具身任务时,仍面临重大挑战。为解决此问题,我们提出一个受人类内隐与外显记忆结构启发的显式记忆模块。我们的模型采用一种记忆融合机制,能高效检索并学习任务相关信息,从而在复杂具身任务上实现性能提升。

长期具身轨迹

具身人工智能模拟器(Chang et al., 2017; Kolve et al., 2017; Szot et al., 2021; Shen et al., 2021)推动了具身智能体的发展。基于这些环境,现有的一些基准测试侧重于高层规划任务,通常涉及可在单房间内完成的短轨迹,因此对时空记忆的需求最小(Shridhar et al., 2020, 2021; Li et al., 2024a; Szot et al., 2024; Li et al., 2024b; Yang et al., 2025a)。 另一些基准测试则强调具有扩展轨迹的长期场景探索,但主要围绕导航任务,且往往缺乏具身交互支持(Deitke et al., 2020; Ramakrishnan et al., 2021; Krantz et al., 2022; Khanna et al., 2024)。 为弥合这一差距,我们提出了3DMem-Bench,这是一个专门为评估需要丰富时空记忆和完整具身任务支持的长视野任务执行而设计的基准测试,其概况总结于表1。

具身问答基准测试

具身问答(Embodied Question Answering, EQA)基准测试(Das et al., 2018; Wijmans et al., 2019; Yu et al., 2019)旨在推进能够感知环境的目标驱动智能体。一些EQA基准测试也包含具身记忆问答评估,例如包含情景记忆问答分拆的OpenEQA(Majumdar et al., 2024),以及侧重于空间记忆问答的Yang et al. (2024)。相比之下,我们的基准测试3DMem-Bench同时针对空间记忆和情景记忆,特别是它们随时间的变化,同时还支持具身动作任务、EQA和描述任务。 具体到EQA的比较,我们的长期记忆EQA任务被设计为需要推理多个“片段”的记忆及其在时间和空间上的变化。 此外,在评估过程中,我们会考虑智能体在回答每个问题时在场景中的位置。

记忆系统

记忆是人工智能系统的基本组成部分,早期工作涉及在基于网络和沙盒环境中利用记忆进行决策的LLM智能体(Shinn et al., 2023; Zhang et al., 2023; Packer et al., 2023; Zhang et al., 2024)。大多数现有方法构建一个经验池或记忆库,并侧重于改进对有用历史信息的检索(Zhao et al., 2024; Gao et al., 2024; Xu et al., 2025b)。 在计算机视觉领域,时序记忆在视频理解与生成任务中得到了广泛研究(Wang et al., 2021; Diao et al., 2025),而空间记忆则被应用于场景级视觉理解和三维重建(Wang and Agapito, 2024; Zou et al., 2025)。近期工作如3D-Mem(Yang et al., 2025b)通过提示视觉语言模型,探索了用于探索和推理的三维场景记忆。相比之下,我们的工作聚焦于对现实世界具身场景至关重要的密集三维记忆表示,在这些场景中,任务执行高度依赖于对长期时空记忆的维持与推理。

[Table 3: Ablation study of query initialization designs in our memory fusion module.]

6 结论

本工作中,我们提出了3DMem-Bench,这是一个包含从简单到困难的细粒度长期记忆具身任务、针对跨时空记忆变化的问答任务,以及在复杂三维环境中描述任务的综合性基准测试。 我们提出了3DLLM-Mem,这是一个具有新颖记忆融合方法的具身三维大语言模型,用于时空推理、规划与行动。我们模型的一个局限是,目前3DLLM-Mem不涉及低层导航与控制策略,而是利用模拟器中的高层预定义策略来执行动作。我们认为这些方面与我们的研究是正交的,未来可以探索并将其无缝集成到我们的框架中。

致谢与资助声明

我们感谢匿名审稿人以及UCLA-NLP+小组其他成员提出的宝贵意见。 本工作部分得到了美国DARPA ECOLE项目(编号#HR00112390060)、ONR资助(N00014-23-1-2780)、亚马逊研究奖以及谷歌礼品基金的支持。Peng和Chang与谷歌和亚马逊存在财务利益冲突,并部分得到了DARPA授予西蒙斯理论计算研究所的资助支持。

NeurIPS 论文清单

  1. 声明

    问题: 摘要和引言中提出的主要声明是否准确反映了论文的贡献和范围?

    答案: [是]

    理由: 我们在摘要和引言中明确陈述了主要声明。

    指南:

    • 答案 NA 表示摘要和引言未包含论文中提出的声明。
    • 摘要和/或引言应清晰陈述所提出的声明,包括论文的贡献以及重要的假设和局限性。对此问题回答"否"或 NA 将不会给评审留下好印象。
    • 提出的声明应与理论和实验结果相匹配,并反映结果在多大程度上可以推广到其他设置。
    • 只要明确说明这些目标并非由本文实现,将愿景目标作为动机是可以接受的。
  2. 局限性

    问题: 论文是否讨论了作者所做工作的局限性?

    答案: [是]

    理由: 我们在第 6 节讨论了局限性。

    指南:

    • 答案 NA 表示论文没有局限性,而答案"否"表示论文存在局限性,但未在论文中讨论。
    • 鼓励作者在论文中创建一个单独的"局限性"部分。
    • 论文应指出任何强假设,以及结果对这些假设被违反时的稳健性(例如,独立性假设、无噪声设置、模型设定正确、渐近近似仅在局部成立)。作者应反思这些假设在实践中可能如何被违反,以及其影响是什么。
    • 作者应反思所提出声明的范围,例如,如果方法仅在少数数据集或少数运行上进行了测试。通常,实证结果往往依赖于隐含的假设,这些假设应予以阐明。
    • 作者应反思影响方法性能的因素。例如,面部识别算法在图像分辨率低或光线不足的情况下可能表现不佳。或者,语音转文本系统可能无法可靠地用于提供在线讲座的字幕,因为它无法处理技术术语。
    • 作者应讨论所提出算法的计算效率及其如何随数据集规模扩展。
    • 如果适用,作者应讨论其方法在解决隐私和公平性问题方面可能存在的局限性。
    • 虽然作者可能担心完全诚实地说明局限性会被评审用作拒绝的理由,但更糟糕的结果可能是评审发现了论文中未承认的局限性。作者应运用最佳判断力,并认识到支持透明度的个人行动在维护社区诚信的规范方面发挥着重要作用。评审将被特别指示不要因诚实地说明局限性而进行惩罚。
  3. 理论假设与证明

    问题: 对于每个理论结果,论文是否提供了完整的假设集和完整(且正确)的证明?

    答案: [N/A]

    理由: 本文未引入新的定理。

    指南:

    • 答案 NA 表示论文不包含理论结果。
    • 论文中的所有定理、公式和证明都应编号并交叉引用。
    • 所有假设都应在任何定理的陈述中清晰说明或引用。
    • 证明可以出现在主论文或补充材料中,但如果出现在补充材料中,鼓励作者提供简短的证明草图以提供直觉。
    • 反之,在论文核心部分提供的任何非正式证明,都应在附录或补充材料中辅以正式证明。
    • 证明所依赖的定理和引理应被适当引用。
  4. 实验结果可复现性

    问题: 论文是否充分披露了重现论文主要实验结果所需的全部信息,以影响论文的主要声明和/或结论(无论是否提供代码和数据)?

    答案: [是]

    理由: 是的,我们充分披露了所有信息,请参阅第 3 节以及我们在第 4.1 节的实验设置。

    指南:

    • 答案 NA 表示论文不包含实验。
    • 如果论文包含实验,对此问题回答"否"将不会给评审留下好印象:使论文可复现很重要,无论是否提供代码和数据。
    • 如果贡献是数据集和/或模型,作者应描述为使其结果可复现或可验证所采取的步骤。
    • 根据贡献的不同,可复现性可以通过多种方式实现。例如,如果贡献是一种新颖的架构,充分描述该架构可能就足够了;或者,如果贡献是一个特定的模型和实证评估,可能需要使他人能够用相同的数据集复现该模型,或提供对该模型的访问权限。通常,发布代码和数据通常是实现这一目标的好方法,但也可以通过提供如何复现结果的详细说明、访问托管模型(例如,对于大型语言模型)、发布模型检查点或其他适合所进行研究的方式来实现可复现性。
    • 虽然 NeurIPS 不要求发布代码,但会议要求所有提交的论文提供一些合理的可复现途径,这可能取决于贡献的性质。例如: (a) 如果贡献主要是一种新算法,论文应清楚说明如何复现该算法。 (b) 如果贡献主要是一种新的模型架构,论文应清晰完整地描述该架构。 (c) 如果贡献是一个新模型(例如,大型语言模型),那么应该有一种方法来访问该模型以复现结果,或者有一种方法来复现该模型(例如,使用开源数据集或关于如何构建数据集的说明)。 (d) 我们认识到在某些情况下可复现性可能很棘手,在这种情况下,作者可以描述他们提供的特定可复现方式。对于闭源模型,可能对模型的访问受到某种限制(例如,仅限注册用户),但其他研究人员应该有可能通过某种途径复现或验证结果。
  5. 数据和代码的开放获取

    问题: 论文是否开放获取数据和代码,并提供足够的说明以忠实地复现主要实验结果,如补充材料中所述?

    答案: [是]

    理由: 我们将在评审过程结束后公开发布我们的代码和数据。我们也在提交的补充材料中提供了数据样本和示例代码。

    指南:

    • 答案 NA 表示论文不包含需要代码的实验。
    • 详情请参阅 NeurIPS 代码和数据提交指南 (https://nips.cc/public/guides/CodeSubmissionPolicy)。
    • 虽然我们鼓励发布代码和数据,但我们理解这可能无法实现,因此"否"是可接受的答案。不能仅仅因为不包含代码而拒绝论文,除非这是贡献的核心(例如,对于新的开源基准测试)。
    • 说明应包含重现结果所需的确切命令和环境。详情请参阅 NeurIPS 代码和数据提交指南 (https://nips.cc/public/guides/CodeSubmissionPolicy)。
    • 作者应提供数据访问和准备的说明,包括如何访问原始数据、预处理数据、中间数据和生成数据等。
    • 作者应提供脚本来复现新提出方法和基线的所有实验结果。如果只有部分实验是可复现的,他们应说明哪些实验从脚本中省略及其原因。
    • 在提交时,为保持匿名性,作者应发布匿名版本(如果适用)。
    • 建议在补充材料(附在论文后)中提供尽可能多的信息,但也允许包含指向数据和代码的 URL。
  6. 实验设置/细节

    问题: 论文是否指定了理解结果所需的所有训练和测试细节(例如,数据划分、超参数及其选择方式、优化器类型等)?

    答案: [是]

    理由: 请参阅我们在第 4.1 节和附录 D 中的实现细节。

    指南:

    • 答案 NA 表示论文不包含实验。
    • 实验设置应在论文核心部分以必要的详细程度呈现,以便理解结果并使其有意义。
    • 完整细节可以通过代码、附录或补充材料提供。
  7. 实验统计显著性

    问题: 论文是否适当地报告了误差线(或正确定义的误差线),或关于实验统计显著性的其他适当信息?

    答案: [否]

    理由: 我们在 Google TPU 上进行实验,长期记忆 3D-LLM 的训练成本高昂,我们没有资源多次运行实验并计算误差线。

    指南:

    • 答案 NA 表示论文不包含实验。
    • 如果结果附有误差线、置信区间或统计显著性检验,至少对于支持论文主要声明的实验,作者应回答"是"。
    • 应清楚说明误差线所捕捉的可变性因素(例如,训练/测试划分、初始化、某些参数的随机抽取,或给定实验条件下的整体运行)。
    • 应解释计算误差线的方法(闭式公式、调用库函数、自助法等)。
    • 应给出所做的假设(例如,误差服从正态分布)。
    • 应清楚误差线是标准差还是均值的标准误。
    • 报告 1-sigma 误差线是可以的,但应予以说明。如果未验证误差的正态性假设,作者最好报告 2-sigma 误差线,而不是声称拥有 96% 的置信区间。
    • 对于非对称分布,作者应注意不要在表格或图表中显示可能导致超出范围结果(例如,负错误率)的对称误差线。
    • 如果在表格或图表中报告了误差线,作者应在正文中解释它们是如何计算的,并在正文中引用相应的图表或表格。
  8. 实验计算资源

    问题: 对于每个实验,论文是否提供了足够的信息来说明复现实验所需的计算资源(计算工作器类型、内存、执行时间)?

    答案: [是]

    理由: 请参阅我们在第 4.1 节和附录 D 中的实现细节。

    指南:

    • 答案 NA 表示论文不包含实验。
    • 论文应说明计算工作器的类型(CPU 或 GPU、内部集群或云提供商),包括相关的内存和存储。
    • 论文应提供每个单独实验运行所需的计算量,并估算总计算量。
    • 论文应披露整个研究项目是否需要比论文中报告的实验更多的计算资源(例如,未纳入论文的初步或失败实验)。
  9. 道德准则

    问题: 论文中进行的研究是否在各个方面都符合 NeurIPS 道德准则 https://neurips.cc/public/EthicsGuidelines?

    答案: [是]

    理由: 我们在附录 A 中讨论了道德关切和更广泛的影响。

    指南:

    • 答案 NA 表示作者尚未审阅 NeurIPS 道德准则。
    • 如果作者回答"否",他们应解释需要偏离道德准则的特殊情况。
    • 作者应确保保持匿名性(例如,如果其所在司法管辖区的法律或法规有特殊考虑)。
  10. 更广泛的影响

    问题: 论文是否讨论了所做工作的潜在积极社会影响和消极社会影响?

    答案: [是]

    理由: 我们在附录 A 中讨论了更广泛的影响。

    指南:

    • 答案 NA 表示所做工作没有社会影响。
    • 如果作者回答 NA 或"否",他们应解释为什么他们的工作没有社会影响,或者为什么论文没有涉及社会影响。
    • 消极社会影响的例子包括潜在的恶意或意外使用(例如,虚假信息、生成虚假个人资料、监控)、公平性考虑(例如,部署可能对特定群体做出不公平决策的技术)、隐私考虑和安全性考虑。
    • 会议期望许多论文将是基础研究,并不与特定应用挂钩,更不用说部署。但是,如果存在任何消极应用的直接路径,作者应指出。例如,指出生成模型质量的改进可能被用于生成虚假信息所需的深度伪造是合理的。另一方面,不需要指出一种通用的神经网络优化算法可能使人们能够更快地训练生成深度伪造的模型。
    • 作者应考虑技术按预期使用且功能正常时可能产生的危害、技术按预期使用但给出错误结果时可能产生的危害,以及(有意或无意)滥用技术可能导致的危害。
    • 如果存在消极社会影响,作者也可以讨论可能的缓解策略(例如,模型的受控发布、在攻击之外提供防御、监控滥用的机制、监控系统如何随时间从反馈中学习的机制等)。

觉得有用?分享给更多人

获取每周 AI 工具精选

工具推荐、实战教程和生态洞察,每周更新。

相关文章

Simon Willison 正在重构 LLM Python 库的抽象层,以支持服务器端工具执行等新功能。他利用 Claude Code 分析了四大 LLM 提供商的客户端库,生成了用于测试的 curl 命令和 JSON 输出。这些调研材料已开源,旨在帮助设计更通用的 API 抽象。

深度Simon Willison·4月5日·1 分钟

智能体技能——包含程序性知识和可执行资源的结构化包,供智能体在推理时动态加载——已成为增强 LLM 智能体的可靠机制。然而,推理时技能增强存在根本性限制:检索噪声引入无关指导,注入的技能内容带来大量 token 开销,而模型从未真正习得它所遵循的知识。我们提出一个问题:技能是否可以被内化到模型参数中,使其在无需任何运行时技能检索的情况下实现零样本自主行为?我们提出 Skill0,一个专为技能内化设计的上下文强化学习框架。Skill0 引入了一种训练时课程,从提供完整技能上下文开始,逐步撤除。技能按类别离线分组,并与交互历史一起渲染为紧凑的视觉上下文,教授模型工具调用和多轮任务完成。动态课程机制…

深度·4月5日·17 分钟

评论