跨具身跨任务导航基础模型

深度2025年9月15日53 分钟阅读

最有趣的发现是NavFoM通过标识符令牌统一处理不同相机配置和任务时间跨度，在有限令牌长度下采用动态采样策略，实现了跨具身形态和任务的零样本泛化。人工智能研究者、机器人工程师及自动驾驶开发者应阅读本文，了解如何构建通用导航基础模型。

1 引言

对于具身智能体和人类而言，导航是一项基础能力，使其能够在物理环境中智能移动以完成指定任务（Shah et al., 2023a; Bar et al., 2025; Zhang et al., 2024b）。实现鲁棒的导航需要深刻理解环境上下文和任务指令，这些通常通过视觉和语言观察来呈现，这与视觉语言模型（Vision-Language Model, VLM）的模态类似。然而，VLM（Liu et al., 2023a; Yang et al., 2024a; Guo et al., 2025）最近在检索、分类、描述等任务上展现了卓越的零样本泛化能力，其训练基于大规模开放世界数据，无需依赖特定领域的微调。相比之下，具身导航（Savva et al., 2019a; Deitke et al., 2022）仍然受限于狭窄的任务领域、特定于智能体形态的架构以及受限的指令格式。

为实现通用导航，学界兴趣日益增长（Zhang et al., 2024a; Cheng et al., 2025; Shah et al., 2023a; Long et al., 2024），但先前研究受限于其狭窄的设计和有限的领域适用性，阻碍了进展。在跨任务导航方面，先前方法（Zhang et al., 2025a; Yin et al., 2025; Zhu et al., 2025）通常假设机器人具有一致的相机配置，并将视觉语言导航、物体搜索、目标跟踪等多种任务统一处理。对于跨形态导航，现有方法（Eftekhar et al., 2024; Hirose et al., 2023）隐式地学习关于智能体物理形态的先验知识，但往往局限于特定的导航任务。导航任务与智能体形态之间的现有割裂，突显了缺乏一个能够处理不同形态下多样化任务的导航基础模型。

本文致力于构建一个跨任务、跨形态的具身导航基础模型 NavFoM，该模型在涵盖多样形态和任务的八百万个导航样本上进行训练。受人类主要依靠视觉感官输入完成广泛导航任务的能力，以及近期纯视觉导航方法成功（Shah et al., 2023a; Zeng et al., ）的启发，我们将通用导航任务形式化为：处理由机器人搭载的一个或多个相机捕获的自我中心视频以及语言指令，并预测后续轨迹以完成这些指令。这一形式化与大多数现有导航任务设定兼容（Contributors, 2023; Wang et al., 2024a）。

为使模型能泛化到不同相机配置的形态，我们引入了时空视角指示符标记（Temporal-Viewpoint Indicator tokens, TVI tokens），用以标识相机设置的视角以及导航时域的时间信息。通过动态调整这些 TVI 标记，我们的方法能够对不同相机配置进行协同调优，并支持与图像问答和视频问答样本的联合训练（Shen et al., 2024; Li et al., 2023）。此外，为应对实际部署中的硬件内存成本和推理速度等约束，我们提出了一种基于标记预算的时序采样策略（Budget-Aware Temporal Sampling, BATS），该策略根据受标记预算约束的遗忘曲线，动态采样导航历史标记。这种标记采样方法平衡了性能与推理速度，增强了我们方法在实际部署中的实用性。

Figure 2: Benchmark performance of NavFoM, we compare NavFoM with SOTA baselines on each benchmarks. See Sec. 4 for more detials.

我们收集了一个全面且多样化的导航数据集，包含 802 万个样本，来源于公开导航数据集（Savva et al., 2019a; Wang et al., 2025c; Contributors, 2023; Wang et al., 2024a）和伪网络视频导航数据（Li et al., 2025a）。该数据集包含来自四足机器人、无人机、轮式机器人和汽车的跨形态轨迹，涵盖了视觉语言导航、物体搜索、目标跟踪和自动驾驶等多种任务。这些导航样本具有多样化的指令和需要多种技能的场景，使 NavFoM 能够获得泛化的导航能力。

此外，我们收集了 476 万个源自图像和视频问答任务的开放世界知识样本（Shen et al., 2024; Li et al., 2023）。遵循（Zhang et al., 2024a）的方法，我们将导航数据与图像、视频问答数据进行端到端的协同调优，促进了 NavFoM 的大规模全面训练。

我们的实验表明，NavFoM 在通用导航方面取得了显著进展。无需任务特定微调，NavFoM 在针对多种形态的多样化公开基准测试中达到了最先进或具有竞争力的性能。在 VLN-CE RxR（Ku et al., 2020）上，与先前基线相比，NavFoM 在多相机设置下的性能（成功率从 56.3% 提升至 64.4%）和在单相机设置下的性能（成功率从 51.8% 提升至 57.4%）均有提高。在 HM3D-OVON（Yokoyama et al., 2024b）上，我们的方法在零样本设置下达到了 45.2% 的成功率，优于先前经过微调的最先进方法（43.6% 成功率）。在物体搜索、跟踪和自动驾驶的各种基准测试中也观察到了同样强劲的结果。我们进一步通过在多个机器人平台（包括人形机器人、四足机器人、无人机和轮式机器人）上的真实世界实验验证了 NavFoM。这些结果凸显了其强大的泛化能力，并标志着向通用导航迈出了有希望的进展。

2 相关工作

导航大模型。将大模型（LLM 和 VLM）集成到机器人导航中，推动该领域从传统的基于学习的方法转向利用预训练知识进行开放世界理解和实现强大的泛化能力。一种直接的方法 (Zhou et al., 2023; Shah et al., 2022; Qiao et al., 2023) 是以零样本方式使用现成的 LLM。这些工作通过思维链机制 (Pan et al., 2023; Long et al., 2023; Lin et al., 2025) 和结构化推理框架 (Chen et al., 2024b; Qiao et al., 2025) 强调可解释性。然而，将密集的视觉信息抽象为文本会导致稀疏的环境观测，且仅限于静态环境。

另一条路径 (Cheng et al., 2025; Zhang et al., 2024a; 2025a; Wei et al., 2025; Wang et al., 2025c) 涉及使用导航数据对基于视频或基于图像 (Zhou et al., 2025; Zheng et al., 2024; Zhang et al., 2025c) 的视觉语言模型进行端到端微调，以使 VLM 掌握导航能力。然而，现有方法大多关注同构智能体，忽视了不同智能体形态和任务之间潜在的训练协同效应。在本工作中，我们初步尝试将导航策略扩展到更广泛的跨智能体形态和跨任务导航领域。

跨智能体形态导航。开发能够泛化到不同智能体形态（形状、大小和传感器配置各异）的导航模型，仍然是具身 AI 领域的一项重大挑战。近期的努力 (Shah et al., 2023a; b; Yang et al., 2024b; Wang et al., 2020; Eftekhar et al., 2024; Hirose et al., 2023; Putta et al., 2024; Curtis et al., 2024; Wang et al., 2025a; Zhang et al., 2025b) 表明，基于 Transformer 的策略在大规模跨智能体形态数据集上进行训练，能够在无需手动对齐观测空间和动作空间的情况下，在各种机器人平台上实现鲁棒的性能。

然而，这些模型通常在处理多模态输入时没有融入显式的空间和时间线索，这可能导致由于不同智能体形态数据在几何解释上的差异而产生歧义。这种方法也可能导致数据效率低下，以及对分布外智能体形态的泛化能力有限 (Eftekhar et al., 2024; Wang et al., 2025b)。相比之下，NavFoM 引入了时空指示符标记，用于编码观测配置，使模型能够更好地解释不同智能体形态下的多模态输入。

跨任务导航。具身 AI 领域的最新进展 (O’Neill et al., 2024; Team et al., 2024; Kim et al., ; Bjorck et al., 2025; Black et al., 2024; Intelligence et al., 2025; Bu et al., 2025b; a; Qu et al., 2025) 表明，基于基础模型构建的通才模型可以有效地在不同任务间迁移知识。在导航领域，先前的研究 (Zhou et al., 2024; Wang et al., 2022; Long et al., 2024; Song et al., 2025; Zhang et al., 2025a; Gao et al., 2025; Yin et al., 2025; Ruan et al., 2025) 表明，整合来自不同类别导航任务的数据可以在各种导航场景中带来更强的性能。早期工作 VIENNA (Wang et al., 2022) 利用强化学习在模拟器中训练智能体。最近，Uni-Navid (Zhang et al., 2025a) 开发了一个基于视频视觉语言模型的通才模型，通过跨四种任务类型（视觉语言导航、目标物体导航、具身问答和跟随人）的跨任务学习来掌握泛化的导航技能。然而，这些方法仅限于受限的场景（例如，室内可控环境），而我们的工作扩展到更广泛的场景（例如，包括自动驾驶和无人机导航），并将所有任务统一在一个通用框架下。在此框架中，模型以 RGB 视频和自然语言指令作为输入，并输出可执行的轨迹。

3 方法

通用导航任务。我们考虑一个通用导航设定：一个移动智能体被给定一条文本指令 $L$ 以及一个在时间步 $\{1,...,T\}$ 从 $N$ 个不同相机实时捕获的图像序列 $I_{1:T}^{1:N}\in\mathbb{R}^{W\times H\times 3}$ 。给定这些观测和指令，我们的模型 $\pi$ 需要预测一条导航轨迹 $\tau=\{\mathbf{a}_{1},\mathbf{a}_{2},...\}$ ，其中每个 $\mathbf{a}\in\mathbb{R}^{4}=(x,y,z,\theta)$ 代表一个位置和朝向的路径点。注意， $z$ 仅在智能体为无人机时使用， $\theta$ 表示偏航角（由于我们的任务不需要敏捷的飞行机动，偏航角已足够）。模型驱动移动智能体根据映射 $\pi(L,I_{1:T}^{1:N})\mapsto\tau_{T}$ 来完成任务。

基础架构。我们将基于视频的视觉语言模型（VLM）[1, 2] 扩展为双分支架构，以同时支持导航和问答任务[3]。对于导航，我们首先使用视觉编码器和一个跨模态投影器[4]对观测图像 $I_{1:T}^{1:N}$ 进行编码，得到视觉标记 $E_{1:T}^{1:N}$ 。指令则遵循现有语言模型[4]的通用实践进行嵌入，产生语言标记 $E_{L}$ 。视觉标记随后通过时间-视点指示符标记（第3.1.1节）和预算感知时间采样（第3.1.2节）进行组织，与语言标记拼接后，输入到一个大型语言模型中以预测动作标记。该标记随后由一个规划模型解码，生成基于路径点的轨迹。

\begin{split}E_{T}^{A}&=\text{LLM}({E_{1:T}^{1:N},E_{L}}),\\ \tau_{T}&=\text{ActionModel}(E_{T}^{A}).\end{split}

(1)

对于问答任务，我们遵循现有方法[4]，以自回归方式预测下一个标记。与现有工作[5, 6, 3, 7]类似，我们的模型支持导航和问答样本的联合调优。

3.1 导航基础模型

观测编码。给定在时间步 $T$ 从 $N$ 个多相机视角捕获的以自我为中心的 RGB 序列 $I_{1:T}^{1:N}\in\mathbb{R}^{W\times H\times 3}$ ，我们采用预训练的视觉编码器（DINOv2[8] 和 SigLIP[9]，这是一种广泛使用的方案[10, 11]）来提取视觉特征 $\mathbf{V}_{1:T}^{\text{dino/SigLIP}}\in\mathbb{R}^{P\times C}$ ，其中 $P$ 是图像块数量（设为576）， $C$ 表示嵌入维度。为了节省标记和计算效率，我们直接将 $V_{1:T}^{\text{dino}}$ 和 $V_{1:T}^{\text{siglip}}$ 沿通道维度拼接，并将得到的表示记为 $V_{1:T}$ 。在导航过程中，实时捕获的视频会产生大量帧，进而产生大量视觉特征。为了解决这个问题，我们在视觉特征上采用网格池化策略[5, 6]（图3，网格平均池化）以生成更紧凑的表示。具体来说，我们使用两种分辨率尺度：

\mathbf{V}^{{\color[rgb]{0,0,1}\definecolor[named]{pgfstrokecolor}{rgb}{0,0,1}\text{fine}}/{\color[rgb]{0,0.6015625,0}\definecolor[named]{pgfstrokecolor}{rgb}{0,0.6015625,0}\text{coarse}}} =\text{GridPool}(\mathbf{V},{\color[rgb]{0,0,1}\definecolor[named]{pgfstrokecolor}{rgb}{0,0,1}\frac{64}{P}}or{\color[rgb]{0,0.6015625,0}\definecolor[named]{pgfstrokecolor}{rgb}{0,0.6015625,0}\frac{4}{P}}),

(2)

其中 $V^{\text{fine}}\in\mathbb{R}^{64\times C}$ 提供细粒度观测，而 $V^{\text{coarse}}\in\mathbb{R}^{4\times C}$ 提供粗粒度观测。在这种情况下，我们使用细粒度特征 $V_{\text{fine}}$ 处理最新的导航观测和图像问答（在时间步 $T$ ），同时使用粗粒度特征处理导航历史和视频数据（跨时间步 $1:T$ ）。最后，遵循已建立的 VLM[4, 1]，我们使用一个跨模态投影器 $\mathcal{P}(\cdot)$ （一个2层 MLP）将视觉特征投影到大型语言模型的潜在空间： $\mathbf{E}^{V}_{T}=\mathcal{P}(V_{1:T}^{1:N})$ 。

图4：时间-视点指示符（TVI）标记的可视化。我们采用聚类算法[12]将高维嵌入映射到二维空间。

3.1.1 时间-视点指示符（TVI）标记

由于视觉标记本身不包含视点和时间信息，多视角导航模型的一个关键挑战在于使 LLM 能够辨别哪些标记对应于不同的时间步或不同的相机视角。先前的方法要么局限于特定的相机配置或智能体[13, 14]，要么只是简单地拼接所有视角图像的标记[15, 16]，从而忽略了 LLM 标记组织的灵活性。为了实现任意相机排列的灵活处理，我们引入了时间-视点指示符标记，其灵感来源于为时间/模态/任务识别而设计的特殊标记已被证明的有效性[17, 18]，这种方法已被广泛认为有助于 LLM 学习。在我们的设定中，指示符标记用于多种任务，包括图像问答、视频问答和导航，应满足三个重要属性：

视点感知：标记的角度嵌入必须保持方位角的循环连续性（例如， $0\equiv2\pi$ ），确保嵌入之间的距离度量反映几何邻近性（例如，当 $\epsilon\neq\pi$ 时， $d(0,\epsilon)<d(0,\pi)$ ）。
时间感知：标记必须唯一地标识所有相机视图中帧的时间顺序，同时保持对不规则采样间隔的鲁棒性。
可分离性：指示符标记可以编码视点或时间信息（用于视频问答），也可以完全排除此类信息（用于图像问答）。

为了满足这些要求，我们的时间-视点指示符（TVI）标记 $\mathbf{E}_{\text{TVI}}\in\mathbb{R}^{C}$ （其中时间步和视角角度分别记为 $t$ 和 $\phi$ ）由三种类型的嵌入组成：角度嵌入 $\text{AnglePE}(\phi)\in\mathbb{R}^{C}$ 、时间嵌入 $\text{TimePE}(t)\in\mathbb{R}^{C}$ 和一个可学习的基础嵌入 $\mathbf{E}_{\text{Base}}\in\mathbb{R}^{C}$ ：

\mathbf{E}_{\text{TVIT}}=\begin{cases}\mathbf{E}_{\text{Base}}+\mathcal{P}_{\text{time}}(\text{TimePE}(t))+\mathcal{P}_{\text{angle}}(\text{AnglePE}(\phi)),&\text{if Navigation}\\ \mathbf{E}_{\text{Base}}+\mathcal{P}_{\text{time}}(\text{TimePE}(t)),&\text{if Video QA}\\ \mathbf{E}_{\text{Base}},&\text{if Image QA}\end{cases}

(3)

其中 $\text{AnglePE}(\phi)$ 是通过分别对方位角的余弦和正弦值应用正弦位置编码[19]的拼接来实现的，而 $\text{TimePE}(t)$ 则实现为 $t$ 的正弦位置编码。这里， $\mathcal{P}_{\text{time}}$ 和 $\mathcal{P}_{\text{angle}}$ 都实现为两层 MLP（设计与[4]中使用的类似）。对于不同的任务和 TVI 标记，我们采用指示符标记组件的不同组合来表示各种视觉标记的属性。对于导航任务，我们同时包含时间和视点信息。对于视频问答任务，我们纳入时间信息。对于图像问答任务，我们仅使用 $E_{\text{Base}}$ 作为指示符，表明后续标记是视觉标记。这种策略为组织显著不同的样本类型提供了一种灵活的方法，并促进了 LLM 的学习（第3.1.3节）。我们在图4中提供了 TVI 标记聚类结果[12]的图示，观察到标记根据视点 $\theta$ （用彩虹色条表示）和时间步 $t$ （用颜色值表示）彼此区分。

需要注意的是，虽然存在其他融合多视角信息的技术，例如位置编码[15]，但我们通过实验发现（表6），利用额外的指示符标记在训练期间表现出最鲁棒的性能，并在评估中表现出强大的性能。我们认为这是因为添加此类标记不会破坏现成的视觉标记空间。这一发现在相关文献[17, 18]中也有报道。

3.1.2 预算感知时间采样（BATS）

在导航过程中，实时捕获的视频会产生过多的视觉标记，增加推理和训练时间，并阻碍实际部署。先前的方法通过两种方式应对这一挑战：（1）标记合并[6]，这在训练期间引入额外的计算开销，并在评估期间导致不一致的推理速度；（2）均匀采样[7]，这通常由于缺乏短期上下文而无法充分捕获最近的观测。此外，在涉及可变相机视角设置（帧数显著增加）的场景中，这两种策略都需要额外的修改。

图5：BATS 及相应时间成本的可视化。(a) 给定固定标记预算 B=1600，我们展示了在最新时间步 T 时，不同时间步 t 的采样概率。(b) 给定最大时间步 T=125，我们绘制了在不同标记预算 B 下，跨不同时间步 t 的采样概率。(c) 我们比较了使用 BATS 与不使用 BATS（保留所有帧）时的推理时间。

为此，我们提出预算感知时间采样（BATS），其设计旨在：（a）满足实际需求（即限制最大标记长度以适应推理速度和 GPU 内存限制），（b）保留更多近期信息以增强理解和规划，同时为导航保留足够的历史上下文，以及（c）直接适应不同数量的相机。具体来说，给定一个标记预算 $B_{\text{token}}$ 和一个多视角视频序列 $I_{1:T}^{1:N}\in\mathbb{R}^{W\times H\times 3}$ ，我们采用基于指数增长的采样概率 $P(t)$ ，其灵感来源于“遗忘曲线”。在这种情况下，当捕获的帧标记数量超过标记预算时，我们为每一帧计算一个采样概率：

P(t)=(1-\epsilon)e^{k(t-T)/T}+\epsilon,\quad k>0,

(4)

其中 $\epsilon$ （我们使用 $\epsilon=0.1$ ）确保采样概率的下限在近似范围内， $k$ 表示指数衰减率。因此，采样帧的期望数量可以计算为：

\mathbb{E}_{\text{frames}}\approx\int_{0}^{T}P(t)dt=(1-\epsilon)\frac{1-e^{-k}}{k}T+\epsilon T

(5)

我们约束期望的标记数量 $(({\color[rgb]{0,0.6015625,0}\definecolor[named]{pgfstrokecolor}{rgb}{0,0.6015625,0}4}+1)\mathbb{E}_{\text{frame}}+({\color[rgb]{0,0,1}\definecolor[named]{pgfstrokecolor}{rgb}{0,0,1}64}+1))N$ 不大于 $B_{\text{token}}$ 。这意味着 $\mathbb{E}_{\text{frame}}\leq\frac{B_{\text{token}}-({\color[rgb]{0,0,1}\definecolor[named]{pgfstrokecolor}{rgb}{0,0,1}64}+1)N}{({\color[rgb]{0,0.6015625,0}\definecolor[named]{pgfstrokecolor}{rgb}{0,0.6015625,0}4}+1)N}$ ，并且在帧数 $T$ 足够大的情况下，采样帧数将收敛于期望值（图5(c)）。我们可以使用布伦特法[20]为不同的 $T$ 离线计算 $k$ ，从而得到相应的 $P(t)$ （式4）。注意，由于我们设定了下界概率 $\epsilon$ ，对于非常大的 $T$ （例如，在四相机设置下，标记预算 $B_{\text{token}}=2048$ 时， $T=1120$ ），式5可能无解。然而，这种情况很少发生（对于图2中的列表任务），因为 VLN-CE RxR[21] 中的大多数时间步大约为122步。我们在附录A.2中提供了使用 BATS 的细节。

我们在图5中绘制了时间步采样概率分布和时间效率。可以观察到，我们的方法在不同标记预算 $B$ 和时间步 $T$ 下都能平滑地获得合理的 $P(t)$ 。在标记预算较高时，BATS 策略自适应地采样更多历史标记；即使在标记较少的情况下，我们的策略仍能保持合理的下界。此外，我们注意到 BATS 在整个导航过程中保持了稳定的推理速度。

图6：NavFoM 在不同任务中的标记组织策略。(a) 对于图像问答，使用细粒度视觉标记，并仅包含 TVI 标记的基础嵌入。(b) 对于视频问答，使用粗粒度视觉标记，并包含 TVI 标记的基础嵌入和时间嵌入。(c) 对于导航，同时使用粗粒度和细粒度视觉标记，并整合 TVI 标记的基础、时间和角度嵌入。

3.1.3 LLM 前向传播

标记组织。在获得视觉标记 $E_{1:T}^{1:N}$ （通过 BATS 采样，第3.1.2节）和语言标记 $E_{L}$ 后，我们使用 TVI 标记（第3.1.1节）来组织这些标记，以便通过 LLM 进行前向传播。我们在图6中详细说明了不同任务的标记组织策略。对于图像问答，我们使用 $E_{\text{Base}}$ 以及细粒度视觉标记（每张图像64个标记）来表示图像。对于视频问答，我们纳入 $\mathbf{E}_{\text{Base}}+\mathcal{P}_{\text{time}}(\text{TimePE}(t))$ 为每一帧编码时间信息，并使用粗粒度视觉标记（每帧4个标记）以避免标记数量过多。对于导航，我们使用 $\mathbf{E}_{\text{Base}}+\mathcal{P}_{\text{time}}(\text{TimePE}(t))+\mathcal{P}_{\text{angle}}(\text{AnglePE}(\phi))$ 来表示时间和

3.1 导航基础模型

观测编码。给定在时间步 $T$ 从 $N$ 个多相机视角捕获的以自我为中心的 RGB 序列 $I_{1:T}^{1:N}\in\mathbb{R}^{W\times H\times 3}$ ，我们采用预训练的视觉编码器（DINOv2 (Oquab et al., 2023) 和 SigLIP (Zhai et al., 2023)，这是一个广泛使用的方案 (Kim et al., ; Tong et al., 2024)）来提取视觉特征 $\mathbf{V}_{1:T}^{\text{dino/SigLIP}}\in\mathbb{R}^{P\times C}$ ，其中 $P$ 是图像块的数量（设为 576）， $C$ 表示嵌入维度。为了节省 token 数量并提高计算效率，我们直接将 $V_{1:T}^{\text{dino}}$ 和 $V_{1:T}^{\text{siglip}}$ 沿通道维度拼接，并将得到的表示记为 $V_{1:T}$ 。

在导航过程中，实时捕获的视频会产生大量帧，进而产生大量的视觉特征。为了解决这个问题，我们在视觉特征上采用一种网格池化策略 (Zhang et al., 2024a; 2025a)（图 3，网格平均池化）以生成更紧凑的表示。具体来说，我们使用两种分辨率尺度：

\mathbf{V}^{{\color[rgb]{0,0,1}\definecolor[named]{pgfstrokecolor}{rgb}{0,0,1}\text{fine}}/{\color[rgb]{0,0.6015625,0}\definecolor[named]{pgfstrokecolor}{rgb}{0,0.6015625,0}\text{coarse}}} =\text{GridPool}(\mathbf{V},{\color[rgb]{0,0,1}\definecolor[named]{pgfstrokecolor}{rgb}{0,0,1}\frac{64}{P}}or{\color[rgb]{0,0.6015625,0}\definecolor[named]{pgfstrokecolor}{rgb}{0,0.6015625,0}\frac{4}{P}}),

其中 $V^{\text{fine}}\in\mathbb{R}^{64\times C}$ 提供细粒度观测，而 $V^{\text{coarse}}\in\mathbb{R}^{4\times C}$ 提供粗粒度观测。在此情况下，我们使用细粒度特征 $V_{\text{fine}}$ 处理最新的导航观测和图像问答（在时间步 $T$ ），同时使用粗粒度特征处理导航历史和视频数据（跨时间步 $1:T$ ）。

最后，遵循成熟的视觉语言模型（VLM）方法 (Liu et al., 2023a; Li et al., 2023)，我们使用一个跨模态投影器 $\mathcal{P}(\cdot)$ （一个 2 层 MLP）将视觉特征投影到大型语言模型（LLM）的潜在空间： $\mathbf{E}^{V}_{T}=\mathcal{P}(V_{1:T}^{1:N})$ 。

图 4：时序-视角指示符（TVI）token 的可视化。我们采用一种聚类算法 (McInnes et al., 2018) 将高维嵌入映射到 2D 空间。

3.1.1 时序-视角指示符（TVI）Token

鉴于视觉 token 本身不包含视角和时序信息，多视角导航模型的一个关键挑战在于使 LLM 能够辨别哪些 token 对应于不同的时间步或不同的相机视角。先前的方法要么局限于特定的相机配置或具身形态 (Long et al., 2024; Gao et al., 2025)，要么只是简单地将所有视角图像的 token 拼接起来 (Zheng et al., 2024; Fu et al., 2025b)，从而忽略了 LLM token 组织的灵活性。为了实现灵活处理任意相机排列，我们引入了时序-视角指示符 token，其灵感来源于为时间/模态/任务识别而设计的专用 token 已被证明的有效性 (Guo et al., 2025; Chen et al., 2023)，这种方法已被广泛认为有助于 LLM 学习。在我们的设定中，指示符 token 用于多种任务，包括图像问答、视频问答和导航，应满足三个重要属性：

视角感知：token 的角度嵌入必须保持方位角的循环连续性（例如， $0\equiv 2\pi$ ），确保嵌入之间的距离度量反映几何邻近性（例如，当 $\epsilon\neq\pi$ 时， $d(0,\epsilon)<d(0,\pi)$ ）。
时间感知：token 必须唯一地标识所有相机视角中帧的时间顺序，同时保持对不规则采样间隔的鲁棒性。
可分离性：指示符 token 可以编码视角或时序信息（用于视频问答），也可以完全排除此类信息（用于图像问答）。

为了满足这些要求，我们的时序-视角指示符（TVI）token $\mathbf{E}_{\text{TVI}}\in\mathbb{R}^{C}$ （其中时间步和视角角分别记为 $t$ 和 $\phi$ ）由三种类型的嵌入组成：角度嵌入 $\text{AnglePE}(\phi)\in\mathbb{R}^{C}$ 、时间嵌入 $\text{TimePE}(t)\in\mathbb{R}^{C}$ 和一个可学习的基嵌入 $\mathbf{E}_{\text{Base}}\in\mathbb{R}^{C}$ ：

\mathbf{E}_{\text{TVIT}}=\begin{cases}\mathbf{E}_{\text{Base}}+\mathcal{P}_{\text{time}}(\text{TimePE}(t))+\mathcal{P}_{\text{angle}}(\text{AnglePE}(\phi)),&\text{if Navigation}\\ \mathbf{E}_{\text{Base}}+\mathcal{P}_{\text{time}}(\text{TimePE}(t)),&\text{if Video QA}\\ \mathbf{E}_{\text{Base}},&\text{if Image QA}\end{cases}

其中 $\text{AnglePE}(\phi)$ 通过分别对方位角的余弦和正弦值应用正弦位置编码 (Vaswani et al., 2017) 的拼接来实现，而 $\text{TimePE}(t)$ 则实现为 $t$ 的正弦位置编码。这里， $\mathcal{P}_{\text{time}}$ 和 $\mathcal{P}_{\text{angle}}$ 都实现为两层 MLP（设计与 Liu et al. (2023a) 中使用的类似）。

对于不同的任务和 TVI token，我们采用指示符 token 组件的不同组合来表示各种视觉 token 的属性。对于导航任务，我们同时包含时序和视角信息。对于视频问答任务，我们包含时序信息。对于图像问答任务，我们仅使用 $E_{\text{Base}}$ 作为指示符，表明后续 token 是视觉 token。这种策略为组织显著不同的样本类型提供了一种灵活的方法，并有助于 LLM 学习（第 3.1.3 节）。我们在图 4 中提供了 TVI Token 聚类结果 (McInnes et al., 2018) 的图示，观察到 token 根据视角 $\theta$ （用彩虹色条表示）和时间步 $t$ （用颜色值表示）彼此区分。

需要注意的是，虽然存在其他融合多视角信息的技术，例如位置编码 (Zheng et al., 2024)，但我们通过实验发现（表 6），利用额外的指示符 token 在训练期间表现出最鲁棒的性能，并且在评估中表现出强大的性能。我们认为这是因为添加此类 token 不会破坏现成的视觉 token 空间。这一发现也在相关文献中有所报道 (Guo et al., 2025; Chen et al., 2023)。

3.1.2 预算感知时序采样（BATS）

在导航过程中，实时捕获的视频可能产生过多的视觉 token，增加推理和训练时间，并阻碍实际部署。先前的方法通过两种方式应对这一挑战：（1）Token 合并 (Zhang et al., 2025a)，这在训练期间引入额外的计算开销，并导致评估期间推理速度不一致；（2）均匀采样 (Cheng et al., 2025)，由于缺乏短期上下文，通常无法充分捕获最近的观测。此外，在涉及可变相机视角设置（帧数显著增加）的场景中，这两种策略都需要额外的修改。

图 5：BATS 及相应时间成本的可视化。(a) 给定固定 token 预算 B=1600，我们展示了对于最新时间步 T，在不同时间步 t 的采样概率。(b) 给定最大时间步 T=125，我们绘制了在不同 token 预算 B 下，跨不同时间步 t 的采样概率。(c) 我们比较了使用 BATS 与不使用 BATS（保留所有帧）时的推理时间。

为此，我们提出了预算感知时序采样（BATS），其设计旨在：（a）满足实际目的（即限制最大 token 长度以适应推理速度和 GPU 内存限制），（b）保留更多近期信息以增强理解和规划，同时保留足够的导航历史上下文，以及（c）直接适应不同数量的相机。具体来说，给定一个 token 预算 $B_{\text{token}}$ 和一个多视角视频序列 $I_{1:T}^{1:N}\in\mathbb{R}^{W\times H\times 3}$ ，我们采用基于指数增长的采样概率 $P(t)$ ，其灵感来源于“遗忘曲线”。在这种情况下，当捕获的帧 token 数量超过 token 预算时，我们为每一帧计算采样概率：

P(t)=(1-\epsilon)e^{k(t-T)/T}+\epsilon,\quad k>0,

其中 $\epsilon$ （我们使用 $\epsilon=0.1$ ）确保采样概率的下限在近似范围内， $k$ 表示指数衰减率。因此，采样帧的期望数量可以计算为：

\mathbb{E}_{\text{frames}}\approx\int_{0}^{T}P(t)dt=(1-\epsilon)\frac{1-e^{-k}}{k}T+\epsilon T

我们约束期望的 token 数量 $(({\color[rgb]{0,0.6015625,0}\definecolor[named]{pgfstrokecolor}{rgb}{0,0.6015625,0}4}+1)\mathbb{E}_{\text{frame}}+({\color[rgb]{0,0,1}\definecolor[named]{pgfstrokecolor}{rgb}{0,0,1}64}+1))N$ 不大于 $B_{\text{token}}$ 。这意味着 $\mathbb{E}_{\text{frame}}\leq\frac{B_{\text{token}}-({\color[rgb]{0,0,1}\definecolor[named]{pgfstrokecolor}{rgb}{0,0,1}64}+1)N}{({\color[rgb]{0,0.6015625,0}\definecolor[named]{pgfstrokecolor}{rgb}{0,0.6015625,0}4}+1)N}$ ，并且在帧数 $T$ 足够大的情况下，采样帧数将收敛于期望值（图 5 (c)）。

我们可以使用 Brent 方法 (Brent, 2013) 离线计算不同 $T$ 对应的 $k$ ，从而得到相应的 $P(t)$ （式 4）。请注意，由于我们设定了下限概率 $\epsilon$ ，对于非常大的 $T$ （例如，在四相机设置下，token 预算 $B_{\text{token}}=2048$ 时 $T=1120$ ），式 5 可能无解。然而，这种情况很少发生（对于图 2 中的列表任务），因为 VLN-CE RxR (Ku et al., 2020) 中的大多数时间步大约为 122 步。我们在附录 A.2 中提供了使用 BATS 的细节。

我们在图 5 中绘制了时间步采样概率的分布和时间效率。可以观察到，我们的方法在不同 token 预算 $B$ 和时间步 $T$ 下平滑地获得合理的 $P(t)$ 。在 token 预算较高时，BATS 策略自适应地采样更多历史 token；即使在 token 较少时，我们的策略仍保持合理的下限。此外，我们注意到 BATS 在整个导航过程中保持稳定的推理速度。

图 6：NavFoM 在不同任务中的 Token 组织策略。(a) 对于图像问答，使用细粒度视觉 token，仅包含 TVI token 的基嵌入。(b) 对于视频问答，使用粗粒度视觉 token，包含 TVI token 的基嵌入和时间嵌入。(c) 对于导航，同时使用粗粒度和细粒度视觉 token，整合了 TVI token 的基嵌入、时间嵌入和角度嵌入。

3.1.3 LLM 前向传播

Token 组织。在获得视觉 token $E_{1:T}^{1:N}$ （通过 BATS 采样，第 3.1.2 节）和语言 token $E_{L}$ 后，我们使用 TVI Token（第 3.1.1 节）组织这些 token，以便通过 LLM 进行前向传播。我们在图 6 中详细说明了不同任务的 token 组织策略。对于图像问答，我们使用 $E_{\text{Base}}$ 以及细粒度视觉 token（每图像 64 个 token）来表示图像。对于视频问答，我们加入 $\mathbf{E}_{\text{Base}}+\mathcal{P}_{\text{time}}(\text{TimePE}(t))$ 为每一帧编码时序信息，并采用粗粒度视觉 token（每帧 4 个 token）以避免 token 数量过多。对于导航，我们使用 $\mathbf{E}_{\text{Base}}+\mathcal{P}_{\text{time}}(\text{TimePE}(t))+\mathcal{P}_{\text{angle}}(\text{AnglePE}(\phi))$ 来表示时序和视角信息。这里，细粒度视觉 token 用于最新的观测，而粗粒度 token 用于历史观测。我们的 token 组织策略增强了 LLM 对输入 token 的理解，并支持图像问答、视频问答和导航任务的统一框架。

轨迹预测。对于导航任务，给定从 LLM 前向传播得到的预测动作隐藏状态 $E^{\text{A}}_{T}$ ，我们应用一个规划模型 $\mathcal{A}_{\theta}$ （实现为三层 MLP）来提取轨迹信息 $\tau_{T}$ 。需要注意的是，原始轨迹的范围可能从几米（室内导航）到数十米（自动驾驶和无人机）。在这种情况下，直接预测原始轨迹可能导致路径点分布发散。因此，遵循先前的方法 (Shah et al., 2023a)，我们使用任务特定的缩放因子 $\alpha_{\text{task}}$ 将轨迹的路径点归一化到 $[-1,1]$ 的分布。这里，我们为室内导航、无人机和汽车使用了三种不同的缩放因子，如附录 A.1 所示。我们可以将轨迹预测公式化如下：

\tau_{T}=\{\mathbf{a}_{1},...,\mathbf{a}_{M}\}_{T}=\alpha_{\text{task}}\cdot\mathcal{A}_{\theta}(E^{\text{A}}_{T}),

其中 $M$ 设为 8，归一化的轨迹通过乘以 $\alpha_{\text{task}}$ 重新缩放到绝对值。轨迹损失使用均方误差（MSE）计算： $L_{\text{nav}}=\text{MSE}(\tau^{\text{idx}},\tau^{\text{idx}}_{\text{gt}})$ ，其中 idx 表示有效的动作索引。对于轮式机器人/汽车具身形态， $\mathbf{a}^{\text{idx}}=(x,y,\theta)$ ；对于无人机， $\mathbf{a}^{\text{idx}}=(x,y,z,\theta)$ 。对于问答任务，我们在下一个 token 预测监督框架下采用交叉熵损失 $L_{\text{QA}}$ 。给定一个包含导航和问答样本的批次，总损失定义为 $L=\beta L_{\text{nav}}+L_{\text{QA}}$ 。这里， $\beta$ 是一个常数缩放因子（设为 10），用于放大导航损失，该损失往往

3.1.1 时空视角指示符（TVI）标记

由于视觉标记本身不包含视角和时间信息，多视角导航模型面临的一个关键挑战是让 LLM 能够区分哪些标记对应不同的时间步或不同的相机视角。先前的方法要么局限于特定的相机配置或具身形态（Long et al., 2024; Gao et al., 2025），要么只是简单地将所有视角图像的标记拼接起来（Zheng et al., 2024; Fu et al., 2025b），从而忽视了 LLM 组织标记的灵活性。为了实现任意相机排列的灵活处理，我们引入了时空视角指示符标记，其灵感来源于为时间/模态/任务识别而设计的特殊标记已被证明的有效性（Guo et al., 2025; Chen et al., 2023），这种方法已被广泛认为有助于 LLM 学习。在我们的设定中，指示符标记用于多种任务，包括图像问答、视频问答和导航，这些标记应满足三个重要属性：

视角感知：标记的角度嵌入必须保持方位角的循环连续性（例如 $0\equiv 2\pi$ ），确保嵌入之间的距离度量能反映几何邻近性（例如当 $\epsilon\neq\pi$ 时， $d(0,\epsilon)<d(0,\pi)$ ）。
时间感知：标记必须唯一地标识所有相机视图间帧的时间顺序，同时对不规则的采样间隔保持鲁棒性。
可分离性：指示符标记可以编码视角或时间信息（用于视频问答），也可以完全排除此类信息（用于图像问答）。

为满足这些要求，我们的时空视角指示符（TVI）标记 $\mathbf{E}_{\text{TVI}}\in\mathbb{R}^{C}$ （其中时间步和视角分别记为 $t$ 和 $\phi$ ）由三种类型的嵌入组成：角度嵌入 $\text{AnglePE}(\phi)\in\mathbb{R}^{C}$ 、时间嵌入 $\text{TimePE}(t)\in\mathbb{R}^{C}$ 以及一个可学习的基础嵌入 $\mathbf{E}_{\text{Base}}\in\mathbb{R}^{C}$ ：

\mathbf{E}_{\text{TVIT}}=\begin{cases}\mathbf{E}_{\text{Base}}+\mathcal{P}_{\text{time}}(\text{TimePE}(t))+\mathcal{P}_{\text{angle}}(\text{AnglePE}(\phi)),&\text{if Navigation}\\ \mathbf{E}_{\text{Base}}+\mathcal{P}_{\text{time}}(\text{TimePE}(t)),&\text{if Video QA}\\ \mathbf{E}_{\text{Base}},&\text{if Image QA}\end{cases} \tag{3}

其中， $\text{AnglePE}(\phi)$ 是通过分别对方位角的余弦值和正弦值应用正弦位置编码（Vaswani et al., 2017）并拼接来实现的，而 $\text{TimePE}(t)$ 则是 $t$ 的正弦位置编码。这里， $\mathcal{P}_{\text{time}}$ 和 $\mathcal{P}_{\text{angle}}$ 均实现为两层 MLP（设计与 Liu et al. (2023a) 中使用的类似）。

针对不同的任务和 TVI 标记，我们采用指示符标记组件的不同组合来表示各种视觉标记的属性。对于导航任务，我们同时包含时间和视角信息。对于视频问答任务，我们纳入时间信息。对于图像问答任务，我们仅使用 $E_{\text{Base}}$ 作为后续标记是视觉标记的指示符。这种策略为组织差异显著的样本类型提供了一种灵活的方法，并促进了 LLM 的学习（见第 3.1.3 节）。我们在图4中提供了 TVI 标记聚类结果（McInnes et al., 2018）的图示，从中我们观察到标记根据视角 $\theta$ （由彩虹色条表示）和时间步 $t$ （由颜色深浅表示）彼此区分。

需要注意的是，虽然存在其他整合多视角信息的技术，例如位置编码（Zheng et al., 2024），但我们通过实验发现（表6），利用额外的指示符标记在训练期间表现出最鲁棒的性能，并在评估中表现出强劲的性能。我们认为这是因为添加此类标记不会破坏现成的视觉标记空间。这一发现在相关文献中也有报道（Guo et al., 2025; Chen et al., 2023）。

3.1.2 预算感知时序采样（BATS）

在导航过程中，实时捕获的视频会产生过多的视觉令牌，既增加了推理和训练时间，也阻碍了实际部署。先前的方法通过两种方式应对这一挑战：（1）令牌合并（Zhang et al., 2025a），这会在训练时引入额外的计算开销，并导致评估时推理速度不一致；（2）均匀采样（Cheng et al., 2025），由于缺乏短期上下文，往往无法充分捕捉最近的观测。此外，在涉及可变相机视角设置（帧数显著增加）的场景中，这两种策略都需要额外的修改。

为此，我们提出了预算感知时序采样（BATS），其设计旨在：（a）满足实际需求（即约束最大令牌长度以适应推理速度和GPU内存限制），（b）保留更多近期信息以增强理解和规划，同时为导航保留足够的历史上下文，以及（c）直接适应不同数量的相机。具体而言，给定令牌预算 $B_{\text{token}}$ 和一个多视角视频序列 $I_{1:T}^{1:N}\in\mathbb{R}^{W\times H\times 3}$ ，我们采用基于指数增长的采样概率 $P(t)$ ，其灵感来源于“遗忘曲线”。在这种情况下，当捕获的帧令牌数量超过令牌预算时，我们为每一帧计算采样概率：

P(t)=(1-\epsilon)e^{k(t-T)/T}+\epsilon,\quad k>0, \tag{4}

其中 $\epsilon$ （我们使用 $\epsilon=0.1$ ）确保采样概率的下界在近似范围内， $k$ 表示指数衰减率。因此，采样帧的期望数量可计算为：

\mathbb{E}_{\text{frames}}\approx\int_{0}^{T}P(t)dt=(1-\epsilon)\frac{1-e^{-k}}{k}T+\epsilon T \tag{5}

我们将期望令牌数 $(({\color[rgb]{0,0.6015625,0}\definecolor[named]{pgfstrokecolor}{rgb}{0,0.6015625,0}4}+1)\mathbb{E}_{\text{frame}}+({\color[rgb]{0,0,1}\definecolor[named]{pgfstrokecolor}{rgb}{0,0,1}64}+1))N$ 约束为不大于 $B_{\text{token}}$ 。这意味着 $\mathbb{E}_{\text{frame}}\leq\frac{B_{\text{token}}-({\color[rgb]{0,0,1}\definecolor[named]{pgfstrokecolor}{rgb}{0,0,1}64}+1)N}{({\color[rgb]{0,0.6015625,0}\definecolor[named]{pgfstrokecolor}{rgb}{0,0.6015625,0}4}+1)N}$ ，并且在帧数 $T$ 足够大的情况下，采样帧数将收敛于期望值（图5(c)）。我们可以使用布伦特法（Brent, 2013）离线计算不同 $T$ 对应的 $k$ ，从而得到相应的 $P(t)$ （式4）。需要注意的是，由于我们设置了概率下界 $\epsilon$ ，对于非常大的 $T$ （例如，在四相机设置下，令牌预算 $B_{\text{token}}=2048$ 时 $T=1120$ ），式5可能无解。然而，这种情况很少发生（对于图2中的列表任务），因为VLN-CE RxR（Ku et al., 2020）中的大多数时间步长约为122步。我们在附录A.2中提供了使用BATS的细节。

我们在图5中绘制了时间步采样概率分布和时间效率。可以观察到，我们的方法在不同令牌预算 $B$ 和时间步 $T$ 下都能平滑地获得合理的 $P(t)$ 。在令牌预算较高时，BATS策略自适应地采样更多历史令牌；即使在令牌较少时，我们的策略仍能保持合理的下界。此外，我们注意到BATS在整个导航过程中保持了稳定的推理速度。

3.1.3 LLM 前向传播

令牌组织。在获得视觉令牌 $E_{1:T}^{1:N}$ （通过 BATS 采样，见第 3.1.2 节）和语言令牌 $E_{L}$ 后，我们使用 TVI 令牌（见第 3.1.1 节）来组织这些令牌，以便通过 LLM 进行前向传播。图 6 详细展示了针对不同任务的令牌组织策略。对于图像问答（Image QA），我们使用 $E_{\text{Base}}$ 以及细粒度视觉令牌（每张图像 64 个令牌）来表示图像。对于视频问答（Video QA），我们引入 $\mathbf{E}_{\text{Base}}+\mathcal{P}_{\text{time}}(\text{TimePE}(t))$ 为每一帧编码时序信息，并采用粗粒度视觉令牌（每帧 4 个令牌）以避免令牌数量过多。对于导航任务，我们使用 $\mathbf{E}_{\text{Base}}+\mathcal{P}_{\text{time}}(\text{TimePE}(t))+\mathcal{P}_{\text{angle}}(\text{AnglePE}(\phi))$ 来同时表示时序和视角信息。其中，对最近的观测使用细粒度视觉令牌，而对历史观测则使用粗粒度令牌。我们的令牌组织策略增强了 LLM 对输入令牌的理解，并支持图像问答、视频问答和导航任务的统一框架。

轨迹预测。对于导航任务，给定 LLM 前向传播预测得到的动作隐藏状态 $E^{\text{A}}_{T}$ ，我们应用一个规划模型 $\mathcal{A}_{\theta}$ （实现为一个三层 MLP）来提取轨迹信息 $\tau_{T}$ 。需要注意的是，原始轨迹的范围可能从几米（室内导航）到数十米（自动驾驶和无人机）。在这种情况下，直接预测原始轨迹可能导致路径点分布发散。因此，遵循先前的方法 Shah et al. (2023a)，我们使用任务特定的缩放因子 $\alpha_{\text{task}}$ 将轨迹的路径点归一化到 $[-1,1]$ 的分布。这里，我们为室内导航、无人机和汽车使用了三种不同的缩放因子，如附录 A.1 所示。轨迹预测可表述如下：

\tau_{T}=\{\mathbf{a}_{1},...,\mathbf{a}_{M}\}_{T}=\alpha_{\text{task}}\cdot\mathcal{A}_{\theta}(E^{\text{A}}_{T}), \tag{6}

其中 $M$ 设置为 8，归一化的轨迹通过乘以 $\alpha_{\text{task}}$ 重新缩放到绝对值。轨迹损失使用均方误差（MSE）计算： $L_{\text{nav}}=\text{MSE}(\tau^{\text{idx}},\tau^{\text{idx}}_{\text{gt}})$ ，这里 idx 表示有效的动作索引。对于轮式机器人/汽车载体， $\mathbf{a}^{\text{idx}}=(x,y,\theta)$ ；对于无人机， $\mathbf{a}^{\text{idx}}=(x,y,z,\theta)$ 。对于问答任务，我们在下一个令牌预测的监督框架下采用交叉熵损失 $L_{\text{QA}}$ 。给定一个包含导航和问答样本的批次，总损失定义为 $L=\beta L_{\text{nav}}+L_{\text{QA}}$ 。这里， $\beta$ 是一个常数缩放因子（设为 10），用于放大导航损失，因为该损失源自均方误差，其数值通常较小。

3.2 数据

Figure 7: Comprasion of number of training samples with previouse methods.

为微调 NavFoM，我们收集并处理了一个大规模、全面且多样化的训练样本集，总计 1270 万个实例。其中包括 802 万个导航样本、315 万个基于图像的问答样本以及 161 万个基于视频的问答样本。我们的训练样本数量超过了先前的方法 (Zhang et al., 2024a; 2025a)。导航样本是在多样化的移动智能体（轮式机器人、四足机器人、无人机和汽车）上收集和处理的，涵盖了多种任务，包括视觉语言导航、目标导向导航、主动视觉跟踪和自动驾驶。所有导航数据均以统一方式收集，包括先前捕获的视频（来自单摄像头和多摄像头）、指令以及预测的轨迹路径点。

对于问答样本，我们遵循现有基于视频的视觉语言模型（VLMs）(Shen et al., 2024; Li et al., 2023) 的做法，从现有数据集中收集了基于图像的 QA 和基于视频的 QA 数据。

关于导航样本的更多细节阐述如下：

视觉语言导航 (3.37 M) 要求智能体理解自然语言指令和以自我为中心的视觉观察，将指令与视觉输入对齐，并规划后续动作以到达描述的地标。遵循 VLN 的广义定义 (Zheng et al., 2024; Wang et al., 2025b; Zhou et al., 2024)，我们同时考虑了室内环境（例如，基于 R2R (Krantz et al., 2020) 和 RxR (Ku et al., 2020) 的 VLN-CE）和室外环境（例如，OpenUAV (Wang et al., 2024a)），分别部署在机器人和无人机上。

对于基于 R2R 和 RxR 的 VLN-CE (2.94 M)，我们在机器人沿真实路径行进时，捕获了多视角 RGB 视频、标注的指令和轨迹数据。多视角 RGB 设置包括一个固定的前视摄像头和随机采样的周围摄像头（数量从 1 到 8 个不等）。摄像头高度在 0.6 米到 1.5 米之间随机化，水平视场角在 75∘ 到 120∘ 之间变化。
对于 OpenUAV 数据集 (429 K)，我们为所有序列记录了前、左、右、后视角的摄像头流。其他随机化策略与 VLN-CE 任务中使用的保持一致。

目标导向导航 (1.02 M) 要求机器人在未见过的环境中探索并识别描述的目标。对于目标导向导航数据集，我们遵循 (Zhang et al., 2025a) 的方法，从 L3MVN (Yu et al., 2023) 收集成功的片段，这是一种显式建模探索和识别阶段的启发式方法。我们的数据收集自 HM3D ObjectNav (Savva et al., 2019a) 片段，要求智能体从预定义的类别集合（例如沙发、椅子、床）中定位物体。然而，实验表明我们的方法能够泛化到最先进的开集词汇目标搜索，如表 3 所示。请注意，我们没有采用多摄像头或摄像头随机化，旨在保持与 L3MVN 相同的视觉观察配置。

主动视觉跟踪 (897K) (Islam et al., 2019; Francis et al., 2023; Wang et al., 2025c) 要求机器人在动态和拥挤的环境中区分目标。目标通过文本指令指定，例如“跟随穿蓝色 T 恤的男人”。智能体必须识别人的外观，根据指令跟踪正确的人，并在避开障碍物的同时保持适当的距离。对于此任务，我们使用来自 EVT-Bench 的数据，与 (Wang et al., 2025c) 一致，涉及多样化的室内环境和数百个带有相应描述的虚拟形象。我们也加入了摄像头随机化，如 VLN 数据收集过程中所述。

自动驾驶 (681K) (Hu et al., 2023; Liao et al., 2024b) 要求智能体为在复杂动态的真实世界环境中导航生成安全、舒适且运动学可行的轨迹。此任务评估智能体持续感知周围环境、预测其他交通参与者未来运动，并做出鲁棒的序列决策以避免碰撞并驶向目的地的能力。在此，我们分别处理了来自 nuScenes (Caesar et al., 2020a) 和 OpenScene (Contributors, 2023) 的 27K 和 654K 个样本。我们直接从数据集中记录原始的多视角图像、指令和车辆状态信息。请注意，与常见的自动驾驶基线 (Chen et al., 2024d; Li et al., 2024a) 不同，我们没有收集明确的周围环境信息（如车道细节）。

网络视频导航 (2.03M) 我们还利用了 Sekai 数据集 (Li et al., 2025a)，该数据集提供了约 182K 个带有相应指令（由 VLMs (Bai et al., 2025) 生成）和轨迹（由 SLAM 系统 (Li et al., 2025b) 生成）的 YouTube 视频集合。尽管这些导航样本包含不完美的指令和轨迹，但它们对于融入真实世界的导航场景仍然有价值。类似发现已在 (Cheng et al., 2025; Wei et al., 2025) 中报告。

开放世界问答 (4.76M) 遵循现有的基于视频的 VLMs (Li et al., 2023; Shen et al., 2024; Wang et al., 2025c)，我们收集了 315 万个图像 QA 样本和 161 万个视频 QA 样本，这些样本包含了用于开放世界理解的丰富且全面的知识。

3.3 实现细节

训练配置 我们的模型在配备 56 块 NVIDIA H100 GPU 的集群服务器上训练约 72 小时，总计 4,032 GPU 小时。对于问答数据，所有帧以 1 FPS 采样以减少连续帧之间的冗余。对于离散导航数据（例如 Habitat 环境 Savva et al. (2019a)），我们在机器人执行离散动作后对每一步进行采样（关于如何将离散动作修改为轨迹的细节见附录 A.1）。对于连续导航环境（例如 EVT-Bench Wang et al. (2025c)，自动驾驶 (Caesar et al., 2020b; Contributors, 2023)），数据以 2 FPS 采样以避免冗余。训练期间，视觉编码器（DINOv2 Oquab et al. (2023) 和 SigLIP Zhai et al. (2023)）和大语言模型（Qwen2-7B Yang et al. (2024a)）使用其默认的预训练权重进行初始化。遵循 VLM (Liu et al., 2023a) 的训练范式，我们仅对指定的可训练参数进行一个周期的微调。

Figure 8: Offline Visual Feature Cached. We pre-computed video frames and navigation hisitroy and saved as corase visual tokens.

通过缓存视觉特征加速训练 由于视频序列较长（数百帧），在大批次中在线编码所有图像计算成本高昂。为缓解此问题，我们利用视觉特征缓存机制 (Yan et al., 2022) 并构建了一个视觉特征数据库（见图 8）。请注意，我们仅缓存粗粒度的视觉标记（每帧 4 个标记），与存储完整视频相比，所需磁盘空间显著减少，因为单个导航片段通常会产生数十个视频。对于图像 QA 和导航中的最新观察，我们仍然在线使用视觉编码器提取细粒度的视觉标记（每帧 64 个标记）。这种方法减少了训练时间（加速 2.9 倍）和 GPU 内存使用（减少 1.8 倍）。

4 实验

4.1 实验设置

为评估 NavFoM 的性能，我们进行了广泛的实验和消融研究，主要关注三个关键方面：(1) NavFoM 在不同基准测试的多样化导航任务上表现如何？(2) NavFoM 在真实环境中的表现如何？(3) 我们方法的关键设计组件是否有效？在每个基准测试上，我们的方法都与强基线进行了比较。

基准测试。 我们在多种导航任务上评估我们的方法，包括 VLN、搜索、跟踪和自动驾驶，这些任务涵盖了不同的具身配置（例如，第一人称视角、四相机、六相机和八相机配置）。在所有基准测试中，NavFoM 仅使用在线捕获的第一人称视角视频（部分来自多视角源）和一条指令作为输入，来预测机器人执行的轨迹。鉴于基准测试跨越多种环境和模拟器的多样性，我们仔细验证了场景划分，以确保所有基准测试的训练集和验证集场景之间不存在重叠。

视觉语言导航： 我们在 VLN-CE R2R (Krantz et al., 2020) 和 RxR (Ku et al., 2020) 基准测试的 VAL-Unseen 划分上评估我们的方法，这要求机器人在未见过的室内环境中遵循指令。我们还在 Open-UAV 基准测试 (Wang et al., 2024a) 上评估我们的方法，这要求无人机在未见过的室外环境中遵循指令。
目标物体导航： 我们遵循先前的方法 (Zhang et al., 2025a; Zhu et al., 2025)，以零样本方式在 HM3D-OVON 数据集 (Yokoyama et al., 2024b) 上评估目标物体导航的泛化能力，这是一个开放词汇的物体导航基准测试。
主动视觉跟踪： 我们在 EVT-Bench (Wang et al., 2025c) 上评估我们的方法，这是一个具有挑战性的基准测试，要求机器人在拥挤环境中区分并跟踪目标。
自动驾驶： 我们在主流基准测试上评估我们的方法，即 nuScenes (Caesar et al., 2020a) 和 NAVSIM (Dauner et al., 2024b)，用于开环和伪模拟评估。

评估指标。 为评估导航性能，我们遵循标准评估指标 (Anderson et al., 2018)，包括成功率 (SR)、预言成功率 (OS)、路径长度加权成功率 (SPL)、归一化动态时间规整 (nDTW) 以及目标导航误差 (NE)。特别是对于跟踪任务，我们采用跟踪率 (TR) (Puig et al., 2023)，它衡量成功跟踪步数占总步数的比例。需要注意的是，不同导航任务的成功标准各不相同，因此我们使用每个基准测试的默认成功标准。对于自动驾驶评估，我们报告开环规划 (Caesar et al., 2020a) 的 L2 距离和碰撞率 (CR)。对于 NAVSIM 上的闭环评估，我们使用 PDM 分数 (PDMS) (Dauner et al., 2024b)，它是多个子指标的加权组合：无责任碰撞 (NC)、可行驶区域合规性 (DAC)、碰撞时间 (TTC)、舒适度 (Comf.) 和自车进度 (EP)。

在模拟器上的部署。 对于每个导航任务，我们遵循先前工作 (Krantz et al., 2020; Savva et al., 2019b; Das et al., 2018; Islam et al., 2019) 建立的默认设置。我们的方法以来自可变数量摄像头的在线捕获 RGB 视频（每个摄像头在采取一个步骤后捕获一帧）以及一条文本指令作为输入，并输出下一个轨迹（式 6）。请注意，对于 Habitat-Lab 连续环境中使用离散动作（例如 FORWARD、LEFT、RIGHT 和 STOP）的某些基准测试，我们将这些离散动作替换为基于轨迹的动作。更多细节见附录。

在真实环境中的部署。 对于真实世界部署，我们使用配备 NVIDIA RTX 4090 GPU 的远程服务器来运行 NavFoM。该系统处理观测数据以及文本指令，并将动作命令发送给本地机器人。我们的实验涉及四足机器人、人形机器人、无人机和轮式机器人来执行轨迹。NavFoM 在 1600 个令牌的预算下，最多需要 0.5 秒来生成一个包含八个航点的轨迹。在导航过程中，机器人异步压缩并上传最新的观测数据到模型，同时并发地执行动作。对于不同的机器人，我们利用其现成的本地规划器来引导它们沿着预测的轨迹行进。关于真实世界机器人设置的详细描述，请参阅附录。

4.2 基准测试结果

[表 1：在单视角和多视角设置下 VLN-CE 上的比较。此处，S.RGB 和 M.RGB 分别表示单视角和多视角配置。符号 ∗ 表示使用了 (Hong et al., 2022) 中航点预测器的方法。我们的方法在单视角和多视角设置下（无需针对特定相机设置进行微调）均达到了 SOTA 性能，并且不需要额外的输入，如深度或里程计。]

VLN：在 VLN-CE (Krantz et al., 2020; Ku et al., 2020) 上的性能。 我们首先在最广泛使用的视觉语言指令基准测试——VLN-CE R2R 和 VLN-CE RxR——上评估我们的方法，结果如表 1 所示。我们报告了在单相机和四相机设置（360° 观测）下的性能。请注意，我们的模型没有针对任何特定的相机配置进行微调；相反，视觉令牌是直接使用时序-视角指示符令牌组织的（图 6）。我们的方法在不同相机设置下的两个基准测试上都达到了最先进的性能。在最具挑战性的条件下——单视角 VLN-CE RxR——我们的方法将成功率 (SR) 从 $51.8\%$ 提高到 $57.4\%$ 。值得注意的是，在多相机设置中，我们的方法仅使用四个 RGB 相机就达到了 $64.4\%$ 的 SR，优于先前依赖 RGB-D 相机和里程计信息的 SOTA 方法（ $56.3\%$ SR）。这一结果清楚地证明了我们方法的有效性。我们还观察到从单视角切换到多视角设置时性能有显著提升：在 R2R-CE 上提升了 $5.5\%$ ，在 RxR-CE 上提升了 $7.0\%$ 。这表明多视角导航基础模型是未来研究的一个有前景的方向。此外，与其他基线不同，我们的方法在 RxR 上的表现优于在 R2R 上的表现，尽管 RxR 涉及更长视野和更复杂的指令。我们将此归因于 RxR 指令中更具体和详细的描述，这提供了更强的上下文线索，并帮助模型更好地区分目标地标。

[表 2：在 OpenUAV 基准测试（L1 级辅助）上的综合结果。Seen 表示已见划分，而 UO 和 UM 分别表示测试未见物体集和测试未见地图集。DA 指的是使用基于回溯采样的数据聚合训练的模型。最佳和次佳结果分别用粗体和下划线表示。]

VLN：在 OpenUAV (Wang et al., 2024a) 上的性能。 我们报告了我们的方法在具有挑战性的无人机场景中的性能（表 2），这要求无人机遵循自然语言指令并执行长视野轨迹（平均 200 米）以到达室外环境中描述的目标。请注意，我们的方法直接使用从 TravelUAV (Wang et al., 2024a) 训练划分收集的轨迹（模拟真实轨迹），因为当时没有强基线可用于收集专家轨迹，就像在 ObjectNav 数据收集中所做的那样。尽管如此，与先前针对无人机的基线（如 TravelUAV）相比，我们的方法达到了最先进的性能，且不依赖那些方法中使用的向下视角相机（我们计划在未来的工作中纳入相机配置的额外自由度）。这清楚地证明了我们方法的有效性以及从多样化导航任务中学习的好处（图 12）。

然而，我们观察到所有方法在 Unseen-Map 划分上表现不佳，该划分需要平均穿越 300 米复杂的街区以到达未见过的目标。这是因为未见划分需要更高级的导航能力，例如高效探索大规模环境，而这反过来又依赖于更高质量的无人机数据。

[表 3：目标物体导航。在 HM3D-OVON (Yokoyama et al., 2024b) 上的比较。 $^{*}$ 表示零样本评估。我们报告了我们的方法在第一人称视角和四视角设置下的性能。最佳和次佳结果分别用粗体和下划线表示。]

搜索：在 OVON (Yokoyama et al., 2024b) 上的性能。 遵循先前的工作 (Zhang et al., 2025a; Zhu et al., 2025)，我们在零样本设置下评估在开放词汇基准测试上的搜索能力。结果如表 3 所示，其中包括单相机和四相机配置下的性能。在单相机设置下，我们的方法在零样本评估设置中，在 VAL SEEN 和 VAL SEEN SYNONYMS 划分上达到了与最先进方法 (Zhu et al., 2025) 相当的性能。在更具挑战性的 VAL UNSEEN 划分上，我们的方法优于 SOTA 方法，将成功率 (SR) 从 $40.8\%$ 提高到 $43.6\%$ 。此外，当从单相机设置切换到四相机设置时，我们观察到在所有划分和指标上都有持续的改进。值得注意的是，我们的模型仅在单相机搜索样本上进行了训练，这表明跨不同相机配置的协同训练增强了对各种相机设置的泛化能力。

[表 4：在 EVT-Bench 上的性能。 ${\dagger}$ ：使用 GroundingDINO (Liu et al., 2023b) 作为开放词汇检测器。 ${\ddagger}$ ：使用 SoM (Yang et al., 2023)+GPT-4o (OpenAI, 2024) 作为视觉基础模型。最佳和次佳结果分别用粗体和下划线表示。]

跟踪：在 EVT-Bench (Wang et al., 2025c) 上的性能。 我们在 EVT-Bench（包括单目标和分心目标划分）上，在单视角和四视角相机设置下评估我们的方法（表 4）。请注意，我们的模型仅在单视角设置下训练，并以零样本方式在四视角设置下进行评估。我们的结果表明，所提出的方法在单视角设置下达到了最先进的性能，优于先前专门在跟踪数据上微调的基线 TrackVLA (Wang et al., 2025c)。此外，当相机设置从单视角增加到四视角（以零样本方式）时，我们的方法继续提高了其性能。然而，与在 VLN 中观察到的改进（在 VLN-CE RxR 上 SR 提升了 $6.8\%$ ）相比，这里的增益相对较小（SR 提升了 $0.6\%$ ）。我们将此归因于 EVT-Bench 中的大多数目标生成在机器人前方，这是该基准测试的一个关键假设。我们计划通过模拟和方法增强（例如，在未来工作中纳入随机定位的周围目标）来进一步研究这个问题。

[表 5：在面向规划的 NAVSIM navtest 划分上使用闭环指标的对比。 $\mathcal{V}_{8192}$ 表示 8192 个锚点。最佳和次佳结果分别用粗体和下划线表示。]

自动驾驶：在 NAVSIM (Dauner et al., 2024a) 和 nuScenes (Caesar et al., 2020b) 上的性能。 我们进行实验以评估我们的方法在六视角和八视角设置下的性能（未针对特定配置进行微调）。在 NAVSIM 和 nuScenes 上的结果分别报告在表 5 和附录表 8 中。我们观察到，我们的方法在两个基准测试上都达到了与 SOTA 方法相当的性能，而没有显式地建模与驾驶相关的信息，如车道标记、附近车辆或其他上下文元素。我们相信，通过纳入场景描述作为提示，类似于其他基线方法，我们的方法可以进一步改进。我们也有兴趣在闭环自动驾驶模拟器（如 (Dosovitskiy et al., 2017)）中评估该模型。

图 9：基准测试性能可视化。我们展示了 NavFoM 在 VLN-CE RxR（单视角）、EVT-Bench Distracted Targets（四视角）、OpenUAV（四视角）、NeuScenes（六视角）、OpenScenses（八视角）上的视觉结果。

基准测试结果的可视化。 我们在图 9 中提供了 NavFoM 在上述基准测试上的视觉结果，其中我们绘制了预测的轨迹、相机视角以及相应的指令。

4.3 真实世界结果

图 10：真实世界实验。我们报告了 NavFoM 在不同导航能力下的复杂场景中的定性和定量结果。

在 110 个可复现测试用例上的真实世界性能。 为评估我们方法在真实世界中的性能，我们设计了一系列具有不同能力的导航测试用例（包括 50 个 VLN 样本、30 个搜索样本和 30 个跟踪样本）。具体来说，我们构建了一个 $5\text{m}\times 5\text{m}$ 的空间，并为每个测试用例记录了机器人、障碍物和目标的位置。我们报告了 NavFoM 在这些导航能力的复杂场景中的定性和定量结果。结果如图 10 所示。我们的发现表明，NavFoM 表现出强大的真实世界性能：它能够正确理解周围环境并规划适当的轨迹以完成任务。此外，与强基线 Uni-NaVid (Zhang et al., 2025a) 相比，我们的方法在两个任务上都表现出显著改进，证明了其在真实环境中的优越性能。

图 11：跨任务和跨具身设置的真实世界实验可视化。

具有挑战性的跨任务和跨具身真实世界实验的视觉结果。 我们还在具有不同具身（四足机器人、人形机器人、无人机和轮式机器人）的更复杂场景上进行了广泛的实验。结果如图 11 所示，我们发现我们的方法能够处理复杂的真实世界环境并完成长视野指令。我们鼓励读者观看我们的附带视频以获得更直观的演示。

4.4 消融研究

$图 12：多导航任务训练的消融研究。我们报告了不同训练数据组合（仅特定任务数据、特定任务数据加 50% 其他数据、特定任务数据加 100% 其他数据）的性能。{\dagger} 搜索任务以零样本方式测试。$

多导航任务训练的协同效应。 我们研究了协同

4.1 实验设置

为评估 NavFoM 的性能，我们进行了广泛的实验与消融研究，重点关注三个方面：(1) NavFoM 在不同基准测试的多样化导航任务上表现如何？(2) NavFoM 在真实环境中的表现如何？(3) 我们方法的关键设计组件是否有效？在每个基准测试上，我们的方法都与强基线模型进行了比较。

基准测试。我们在多种导航任务上评估方法，包括视觉语言导航（VLN）、搜索、跟踪和自动驾驶，这些任务涉及不同的具身配置（例如，第一人称视角、四相机、六相机和八相机配置）。在所有基准测试中，NavFoM 仅使用在线捕获的第一人称视角视频（部分来自多视角源）和一条指令作为输入，来预测机器人执行的轨迹。鉴于基准测试跨越多种环境和模拟器的多样性，我们仔细验证了场景划分，确保所有基准测试的训练集与验证集场景之间不存在重叠。

视觉语言导航：我们在 VLN-CE R2R (Krantz et al., 2020) 和 RxR (Ku et al., 2020) 基准测试的 VAL-Unseen 划分上评估方法，这些任务要求机器人在未见过的室内环境中遵循指令。我们还在 Open-UAV 基准测试 (Wang et al., 2024a) 上评估方法，该任务要求无人机在未见过的室外环境中遵循指令。
目标物体导航：我们遵循先前方法 (Zhang et al., 2025a; Zhu et al., 2025) 的思路，在 HM3D-OVON 数据集 (Yokoyama et al., 2024b) 上以零样本方式评估目标物体导航的泛化能力，这是一个开放词汇的物体导航基准测试。
主动视觉跟踪：我们在 EVT-Bench (Wang et al., 2025c) 上评估方法，这是一个要求机器人在拥挤环境中区分并跟踪目标的挑战性基准测试。
自动驾驶：我们在主流基准测试 nuScenes (Caesar et al., 2020a) 和 NAVSIM (Dauner et al., 2024b) 上评估方法，分别进行开环和伪模拟评估。

评估指标。为评估导航性能，我们遵循标准评估指标 (Anderson et al., 2018)，包括成功率（SR）、最优成功率（OS）、路径长度加权成功率（SPL）、归一化动态时间规整（nDTW）以及距离目标点的导航误差（NE）。特别针对跟踪任务，我们采用跟踪率（TR）(Puig et al., 2023)，它衡量成功跟踪步数占总步数的比例。需要注意的是，不同导航任务的成功标准不同，因此我们使用各基准测试的默认成功标准。对于自动驾驶评估，我们报告开环规划 (Caesar et al., 2020a) 的 L2 距离和碰撞率（CR）。对于 NAVSIM 上的闭环评估，我们使用 PDM 分数（PDMS）(Dauner et al., 2024b)，它是多个子指标的加权组合：无责任碰撞（NC）、可行驶区域合规性（DAC）、碰撞时间（TTC）、舒适度（Comf.）和自车进度（EP）。

在模拟器上的部署。对于每个导航任务，我们遵循先前工作 (Krantz et al., 2020; Savva et al., 2019b; Das et al., 2018; Islam et al., 2019) 建立的默认设置。我们的方法以来自可变数量相机的在线捕获 RGB 视频（每执行一步后每个相机捕获一帧）以及一条文本指令作为输入，并输出下一段轨迹（式6）。需要注意的是，对于 Habitat-Lab 连续环境中某些使用离散动作（如 FORWARD、LEFT、RIGHT 和 STOP）的基准测试，我们将这些离散动作替换为基于轨迹的动作。更多细节见附录。

在真实环境中的部署。对于真实世界部署，我们使用配备 NVIDIA RTX 4090 GPU 的远程服务器来运行 NavFoM。系统处理观测数据及文本指令，并将动作命令发送给本地机器人。我们的实验涉及四足机器人、人形机器人、无人机和轮式机器人来执行轨迹。在 1600 个令牌的预算下，NavFoM 最多需要 0.5 秒来生成一条包含八个航点的轨迹。在导航过程中，机器人异步压缩并上传最新观测数据给模型，同时并发地执行动作。对于不同的机器人，我们利用其现成的本地规划器来引导其沿预测轨迹运动。真实世界机器人设置的详细描述请参见附录。

4.2 基准测试结果

[表1：在单视角与多视角设置下VLN-CE的对比结果。其中，S.RGB和M.RGB分别表示单视角和多视角配置。符号∗表示使用了(Hong et al., 2022)中航点预测器的方法。我们的方法在单视角和多视角设置下（无需针对特定相机设置进行微调）均取得了SOTA性能，且无需额外的深度或里程计输入。]

VLN：在VLN-CE上的性能。我们首先在最广泛使用的视觉语言指令基准——VLN-CE R2R和VLN-CE RxR上评估我们的方法，结果如表1所示。我们报告了单相机和四相机设置（360∘观测）下的性能。请注意，我们的模型并未针对任何特定相机配置进行微调；相反，视觉标记是直接使用时序-视点指示符标记组织的（图6）。我们的方法在不同相机设置下的两个基准上都取得了最先进的性能。在最具挑战性的条件下——单视角VLN-CE RxR——我们的方法将成功率从 $51.8\%$ 提升至 $57.4\%$ 。值得注意的是，在多相机设置中，我们的方法仅使用四个RGB相机就达到了 $64.4\%$ 的成功率，优于之前依赖RGB-D相机和里程计信息的SOTA方法（ $56.3\%$ 成功率）。这一结果清楚地证明了我们方法的有效性。我们还观察到从单视角切换到多视角设置时性能有显著提升：在R2R-CE上提升 $5.5\%$ ，在RxR-CE上提升 $7.0\%$ 。这表明多视角导航基础模型是未来研究的一个有前景的方向。此外，与其他基线方法不同，我们的方法在RxR上的表现优于R2R，尽管RxR涉及更长视野和更复杂的指令。我们将此归因于RxR指令中更具体和详细的描述，这提供了更强的上下文线索，帮助模型更好地区分目标地标。

[表2：在OpenUAV基准测试（L1级助手）上的综合结果。Seen表示已见分割，UO和UM分别代表测试未见物体集和测试未见地图集。DA指使用基于回溯采样的数据聚合训练的模型。最佳和次佳结果分别用粗体和下划线表示。]

VLN：在OpenUAV上的性能。我们报告了我们的方法在具有挑战性的无人机场景下的性能（表2），该场景要求无人机遵循自然语言指令并执行长视野轨迹（平均200米）以到达室外环境中描述的目标。请注意，我们的方法直接使用从TravelUAV训练分割中收集的轨迹（模仿真实轨迹），因为当时没有像ObjectNav数据收集中那样可用的强基线来收集专家轨迹。尽管如此，与之前针对无人机的基线方法（如TravelUAV）相比，我们的方法取得了最先进的性能，且不依赖这些方法中使用的下视相机（我们计划在未来的工作中纳入相机配置的额外自由度）。这清楚地证明了我们方法的有效性以及从多样化导航任务中学习的好处（图12）。

然而，我们观察到所有方法在Unseen-Map分割上的表现都很差，该分割需要平均穿越300米复杂的街区以到达未见目标。这是因为未见分割需要更高级的导航能力，例如高效探索大规模环境，而这又依赖于更高质量的无人机数据。

[表3：目标物体导航。在HM3D-OVON上的比较结果。 $^{*}$ 表示零样本评估。我们报告了我们的方法在自我中心视角和四视角设置下的性能。最佳和次佳结果分别用粗体和下划线表示。]

搜索：在OVON上的性能。遵循先前工作，我们在零样本设置下评估了在开放词汇基准上的搜索能力。结果如表3所示，其中包含了单相机和四相机配置下的性能。在单相机设置下，我们的方法在零样本评估设置中，在VAL SEEN和VAL SEEN SYNONYMS分割上取得了与最先进方法相当的性能。在更具挑战性的VAL UNSEEN分割上，我们的方法优于SOTA方法，将成功率从 $40.8\%$ 提升至 $43.6\%$ 。此外，当从单相机设置切换到四相机设置时，我们观察到在所有分割和指标上都有持续的提升。值得注意的是，我们的模型仅在单相机搜索样本上进行训练，这表明跨不同相机配置的协同调优增强了对各种相机设置的泛化能力。

[表4：在EVT-Bench上的性能。 ${\dagger}$ ：使用GroundingDINO作为开放词汇检测器。 ${\ddagger}$ ：使用SoM+GPT-4o作为视觉基础模型。最佳和次佳结果分别用粗体和下划线表示。]

跟踪：在EVT-Bench上的性能。我们在单视角和四视角相机设置下评估了我们的方法在EVT-Bench上的性能（包括单目标和分心目标分割），结果如表4所示。请注意，我们的模型仅在单视角设置下训练，并以零样本方式在四视角设置下评估。我们的结果表明，所提出的方法在单视角设置下取得了最先进的性能，优于先前专门在跟踪数据上微调的基线方法TrackVLA。此外，当相机设置从单视角增加到四视角时（以零样本方式），我们的方法性能继续提升。然而，与在VLN中观察到的提升（在VLN-CE RxR上成功率提升 $6.8\%$ ）相比，这里的提升相对较小（成功率提升 $0.6\%$ ）。我们将此归因于EVT-Bench中的大多数目标生成在机器人前方，这是该基准的一个关键假设。我们计划通过仿真和方法论改进（例如在未来工作中纳入随机定位的周围目标）来进一步研究这个问题。

[表5：在规划导向的NAVSIM navtest分割上使用闭环指标的对比结果。 $\mathcal{V}_{8192}$ 表示8192个锚点。最佳和次佳结果分别用粗体和下划线表示。]

自动驾驶：在NAVSIM和nuScenes上的性能。我们进行了实验，在六视角和八视角设置下（未针对特定配置进行微调）评估我们的方法。在NAVSIM和nuScenes上的结果分别报告在表5和附录表8中。我们观察到，我们的方法在两个基准上都取得了与SOTA方法相当的性能，且未显式建模驾驶相关信息，如车道标记、附近车辆或其他上下文元素。我们相信，通过像其他基线方法那样纳入场景描述作为提示，我们的方法可以得到进一步改进。我们也有兴趣在闭环自动驾驶仿真器中评估该模型。

图9：在基准测试上的性能可视化。我们展示了NavFoM在VLN-CE RxR（单视角）、EVT-Bench Distracted Targets（四视角）、OpenUAV（四视角）、NuScenes（六视角）、OpenScenes（八视角）上的视觉结果。

基准测试结果可视化。我们在图9中提供了NavFoM在上述基准测试上的视觉结果，其中绘制了预测轨迹、相机视图和相应的指令。

4.3 真实世界结果

Figure 10: Real-world experiments. We report both the qualitive and quantitive results of NavFoM on complex seniors among different navigation cabability.

在110个可复现测试用例上的真实世界性能。 为评估我们方法的真实世界性能，我们设计了一系列具有不同能力的导航测试用例（包括50个VLN样本、30个搜索样本和30个跟踪样本）。具体而言，我们构建了一个 $5\text{m}\times 5\text{m}$ 的空间，并为每个测试用例记录了机器人、障碍物和目标的位置。我们在这些导航能力的复杂场景中报告了NavFoM的定性和定量结果，结果如图10所示。我们的发现表明，NavFoM展现出强大的真实世界性能：它能正确理解周围环境并规划合适的轨迹来完成任务。此外，与强基线Uni-NaVid (Zhang et al., 2025a)相比，我们的方法在各项任务上均表现出显著提升，证明了其在真实环境中的优越性能。

Figure 11: Visualization of real-world experiments on cross-task and cross-embodiment settings.

跨任务与跨具身挑战性真实世界实验的可视化结果。 我们还在更具挑战性的场景下，针对不同具身形态（四足机器人、人形机器人、无人机和轮式机器人）进行了广泛的实验。结果如图11所示，我们发现我们的方法能够处理复杂的真实世界环境并完成长时程指令。我们鼓励读者观看随附的视频以获得更直观的演示。

4.4 消融研究

$Figure 12: Ablation study on the training of multiple navigation tasks. We report the performance of different training data combinations (specific task data only, specific task data with 50% other data, and specific task data with 100% other data). †\dagger Searching is tested in a zero-shot manner.$

多导航任务训练的协同效应。 我们通过比较单任务训练与融入其他导航任务额外数据（以 $50\%$ 和 $100\%$ 的比例）的协同调优性能，研究了多导航任务训练的协同效应。此处，“VLN”指VLN-CE RxR四视角设定，“Searching”指OVON四视角设定（以零样本方式评估），“Tracking”指EVT-Bench四视角设定，“Driving”指NavSIM八视角设定。我们观察到，融入多样化导航任务数据进行协同调优，在所有任务上均带来了一致的性能提升（从 $50\%$ 到 $100\%$ 的数据比例）。值得注意的是，Searching（从 $10.3\%$ 提升至 $45.2\%$ ）和Tracking（从 $12.6\%$ 提升至 $62.0\%$ ）表现出最显著的增益。我们将这些改进归因于其训练条件（主要是单视角和闭集目标类别）与评估设定（多视角和开放词汇）之间的差异。通过学习来自其他任务的多视角、多样化目标数据，Searching和Tracking都增强了其多视角和开放集导航能力，从而实现了性能的大幅提升。这些结果表明，跨多个导航任务进行训练有助于缓解对任务特定导航模式的过拟合。

Figure 13: Ablation study on the number of cameras in VLN-CE RxR. We report the performance under five different camera configurations (from left to right: one-, two-, three-, four-, and six-camera settings), with same token budget (B=2048B=2048).

不同相机数量的性能。 我们在VLN-CE RxR上评估了在导航任务中融入更多相机的有效性，该基准提供了一套相对全面的视觉语言导航挑战。结果如表13所示，比较了在机器人周围安装一、二、三、四和六个相机以获得更广视野的配置。我们观察到，当相机数量从一个增加到四个时，性能持续提升，这验证了增强的环境观测对导航性能有积极贡献。然而值得注意的是，扩展到六个相机会导致性能轻微下降。我们将此归因于六个相机相比四个相机并未提供显著更多的观测覆盖，而增加的视角token数量减少了可用于编码历史帧的容量（式5）。这削弱了导航历史与指令之间的对齐。我们认为，通过采用自适应的多视角token编码策略可以缓解此问题。为保持当前工作的连贯性，我们将此探索留待未来研究。

[Table 6: Ablation study on history token organization strategies and identity tokens. For both linear probability sampling and uniform sampling, all methods sample from a base set of 2048 tokens. *Uniform sampling refers to the technique used in (Cheng et al., 2025). †\daggerWe employ the common positional encoding technique from Chen et al. (2021b), which is widely adopted in traditional VLN methods. ‡We introduce predefined learnable special tokens for each viewpoint in the datasets.]

BATS与TVI token的有效性。 我们进行了消融研究以评估我们关键设计的有效性，包括历史token组织策略和视觉-时序历史建模。实验在VLN-CE RxR四相机设定下进行，结果如表6所示。我们在不同token预算（1024或2048）下测试了不同的token策略，发现BATS在两种设定下均优于其他策略。特别是在直接衡量导航轨迹与真实轨迹对齐程度的nDTW指标上，BATS仅表现出轻微的性能下降（ $1.4\%\downarrow$ ），而均匀采样 (Cheng et al., 2025) 为（ $6.0\%\downarrow$ ），线性概率采样为（ $5.2\%\downarrow$ ）。此外，我们将TVI token与其他常见替代方案（单独学习的特殊token以及如式3所示的无 $\mathcal{P}_{\text{angle}/\text{time}}$ 的手工制作token）进行比较，发现TVI token实现了显著更好的性能。如图4所示，我们将此改进归因于其良好学习到的时序和视角信息。相比之下，与常见的历史-视角位置嵌入方法 (Chen et al., 2021b) 相比，我们观察到了明显的性能下降。我们认为这是由于视觉token的额外嵌入组件可能会增加LLM表示学习的复杂性。这些结果表明，社区可能需要新的技术来有效融入视角和时序信息，我们相信TVI token代表了一个有希望的起点。

5 讨论与结论

本研究提出 NavFoM，旨在拓展导航的边界，探索从跨具身与跨任务导航数据中学习到的智能。我们引入了时序-视点指示符标记，以增强大语言模型对导航任务中不同相机配置与不同任务视野的理解，同时使其能够与导航及问答数据进行协同训练。此外，我们采用了一种基于标记预算的时序采样策略，以平衡导航性能与效率，为不同相机设置和任务视野下的标记采样提供了统一方法。在公开基准测试和真实环境中的大量实验表明，NavFoM 取得了令人印象深刻的性能，并展现出通过更先进技术或更高质量数据实现进一步改进的强大潜力。

我们认为，NavFoM 仅仅是迈向导航基础模型的一个起点。我们希望这项工作能吸引更多对以智能为中心的导航的关注，并激发新一代的技术、数据集和基准测试。

1 引言

Figure 2: Benchmark performance of NavFoM, we compare NavFoM with SOTA baselines on each benchmarks. See Sec. 4 for more detials.

2 相关工作

3 方法

通用导航任务。我们考虑一个通用导航设定：一个移动智能体被给定一条文本指令 $L$ 以及一个在时间步 ${1,...,T}$ 从 $N$ 个不同相机实时捕获的图像序列 $I_{1:T}^{1:N}\in\mathbb{R}^{W\times H\times 3}$。给定这些观测和指令，我们的模型 $\pi$ 需要预测一条导航轨迹 $\tau={\mathbf{a}{1},\mathbf{a}{2},...}$，其中每个 $\mathbf{a}\in\mathbb{R}^{4}=(x,y,z,\theta)$ 代表一个位置和朝向的路径点。注意，$z$ 仅在智能体为无人机时使用，$\theta$ 表示偏航角（由于我们的任务不需要敏捷的飞行机动，偏航角已足够）。模型驱动移动智能体根据映射 $\pi(L,I_{1:T}^{1:N})\mapsto\tau_{T}$ 来完成任务。

基础架构。我们将基于视频的视觉语言模型（VLM）[1, 2] 扩展为双分支架构，以同时支持导航和问答任务[3]。对于导航，我们首先使用视觉编码器和一个跨模态投影器[4]对观测图像 $I_{1:T}^{1:N}$ 进行编码，得到视觉标记 $E_{1:T}^{1:N}$。指令则遵循现有语言模型[4]的通用实践进行嵌入，产生语言标记 $E_{L}$。视觉标记随后通过时间-视点指示符标记（第3.1.1节）和预算感知时间采样（第3.1.2节）进行组织，与语言标记拼接后，输入到一个大型语言模型中以预测动作标记。该标记随后由一个规划模型解码，生成基于路径点的轨迹。

$$ \begin{split}E_{T}^{A}&=\text{LLM}({E_{1:T}^{1:N},E_{L}}),\ \tau_{T}&=\text{ActionModel}(E_{T}^{A}).\end{split} $$

(1)

对于问答任务，我们遵循现有方法[4]，以自回归方式预测下一个标记。与现有工作[5, 6, 3, 7]类似，我们的模型支持导航和问答样本的联合调优。