面向具身智能的视频生成基准与数据集

深度2026年1月21日32 分钟阅读
研究发现现有视频生成模型难以准确反映真实机器人交互的物理规律,这一发现对机器人学习和仿真至关重要。本文提出的基准与数据集为研究人员和工程师提供了系统评估模型性能、改进物理真实性的实用工具,适合从事具身智能、视频生成和机器人仿真的专业人士阅读。

1 引言

扩散模型 [44, 84, 79] 与视频生成技术 [83, 80, 35, 98, 92] 的最新进展已带来重大突破,催生了视频编辑、多主体生成和运动控制 [51, 53, 20, 21, 96] 等应用。这些模型已扩展到三维场景 [57, 82]、自动驾驶 [28, 104] 和世界建模 [54, 5] 等领域,展现出强大的跨任务泛化能力。近期一项研究 [97] 指出,类似于自然语言处理中的 LLM,视频模型正在演变为机器视觉的统一基础模型。此外,视频模型正越来越多地应用于机器人学习与动作预测 [37, 113, 45, 111, 38, 61],以及作为可控模拟器来合成机器人视频轨迹,以应对大规模人类遥操作数据稀缺的挑战 [47, 8, 86]。这些进展凸显了视频模型在具身智能体感知-推理-行动循环中的巨大潜力,为在物理世界中构建更具泛化能力的智能系统铺平了道路。

尽管取得了这些进步,针对机器人视频生成的系统性评估体系仍不完善。当前实践大多依赖感知性指标,侧重于视觉质量 [46, 66, 42],而现有的基于物理的基准测试则往往缺乏任务特定的数据集和评判标准 [72, 36]。因此,评估常常忽略了任务完成度、动作-目标对齐以及物理可行性等关键方面。这导致了过于乐观的结论,即使视频包含不自然的运动或未完成的任务,也可能获得高分。核心挑战在于如何严格评估生成的视频是否忠实地再现了机器人行为。这要求评估协议必须超越感知性指标,同时纳入动作的物理合理性及其与指令的对齐性,以确保评估具有区分度和可复现性。

为应对这一挑战,我们提出了 RBench,一个旨在评估基于视频的世界模型在机器人视频生成中的保真度与实用性的基准测试。据我们所知,这是首个针对机器人视频生成、具备细粒度指标的综合性基准,包含跨越五个任务类别和四种机器人类型的 650 个图像-文本对。评估基于两个维度:任务完成度和视觉质量,并纳入了结构一致性、物理合理性和执行完整性等子指标。基于 RBench,我们对 25 个代表性模型进行了定性与定量评估。结果表明,通用视频基础模型在物理机器人视频生成方面仍有巨大的改进空间,揭示了这些模型与具身机器人任务需求之间持续存在的差距。这凸显了在机器人视频数据与训练方法上进行系统性提升的必要性。

要推进具备类人能力与适应性的通用机器人视频生成,需要多样化、可扩展且全面的训练数据 [78, 12]。然而,与可以利用海量网络规模数据集的计算机视觉和自然语言处理不同,机器人交互数据长期以来在规模与多样性上都受到限制 [10, 110, 26]。即使是现有最大的数据集,其规模和多样性也远不及视觉或语言数据集。更关键的是,许多数据集在环境、物体集合、任务谱系和机器人形态 [105, 95] 等关键维度上分布狭窄,往往局限于特定机器人类型、低分辨率记录或有限的任务范围,这阻碍了视频基础模型的泛化。为弥补这些不足,我们整合了超过 20 个开源数据集和多源视频平台,构建了一个四阶段的端到端数据流水线。这些阶段包括机器人视频收集、视频质量过滤、任务分割与描述生成,以及物理属性标注,最终形成了 RoVid-X——一个大规模、高质量的具身机器人视频数据集(见表1)。据我们所知,RoVid-X 是目前专为具身视频生成模型设计的最大规模数据集,涵盖了广泛的机器人形态和任务类型。它旨在通过物理交互先验和任务语义多样性来增强视频基础模型,推动该领域的进一步发展。总体而言,本文的主要贡献总结如下:

  • 一个为机器人视频生成量身定制的系统性基准。我们提出了 RBench,它通过 650 个精心策划的评估样本,全面评估视频基础模型在五种机器人任务和四种机器人类型上的性能,同时引入了可复现的自动化评估指标。

  • 为具身研究提供关于机器人视频生成的关键洞见。我们对 25 个代表性视频模型(包括开源、商用和机器人专用模型)进行了系统性评估,揭示了当前视频基础模型的局限性与潜在的改进方向,为利用视频世界模型探索具身领域的研究者提供了新的视角。

  • 一个大规模、高质量的机器人视频数据集。我们构建了 RoVid-X,一个包含约 400 万条精选机器人视频的数据集,配有标准化的任务描述和物理属性标注,为具身视频模型的训练与评估提供了必要的支持。

2 相关工作

2.1 面向机器人学的视频世界建模

视频生成技术的最新突破催生了能够从文本或图像提示生成高质量视频的强大模型 [83, 80, 75, 59, 92]。随着这些技术的进步,越来越多的研究开始将其应用于具身智能领域 [25, 91, 2, 11]。视频为机器人训练提供了丰富的信息源 [14]。一方面,视频生成模型可用于合成机器人轨迹 [47, 8, 7],作为耗时费力的人工遥操作数据收集的替代方案。可执行的动作可以通过逆动力学模型(IDM)[89, 4, 22, 112] 或潜在动作模型 [88, 107] 提取。另一方面,近期研究探索了利用视频模拟任务动态并预测未来状态,从而辅助策略学习。具体而言,视频生成模型被用于初始化机器人策略以进行训练 [63, 50, 100],或同时训练策略和逆动力学模型,实现与机器人数据的协同训练 [37, 113, 60]。这些工作展示了视频生成模型在具身机器人学领域的巨大潜力,凸显了其在提升训练效率和任务性能方面的重要价值。

2.2 机器人学习数据集

机器人学习的核心挑战之一是缺乏大规模、多样化的数据集,以促进具有物理交互能力的通用机器人训练 [78, 8]。目前,具身智能社区用于机器人学习的数据集大致可分为三类:真实世界机器人数据 [10, 78, 110, 26, 71]、人类视频数据 [18, 31, 32] 以及合成机器人数据 [105, 95, 74, 70, 52, 90]。作为训练物理AI模型的关键要素,大多数现有的真实世界机器人数据集通过机器人遥操作 [102, 27, 1] 或由人类操作员团队 [12, 68, 9] 收集,这导致收集成本高昂且数据规模有限。此外,这些数据集主要关注相似类型的机器人,导致多样性有限和环境受限的问题 [23, 56]。另外,不同数据集之间不一致的数据收集和存储方法使得有效的跨数据集协同训练难以实现。我们的重点是收集涵盖多种机器人形态和实体的、用于视频生成的机器人数据,并为所有数据源提供一套统一的物理属性,从而推动机器人学习的跨实体研究。

Figure 2:
Qualitative illustration of failure modes captured by RBench.
Unlike conventional metrics that focus primarily on pixel-level fidelity, RBench provides a granular evaluation across multiple dimensions, including physical plausibility and task-level consistency. These results highlight persistent challenges in robotic video generation, such as structural distortion, floating components, and key action omission, which are accurately identified by our proposed sub-metrics. More cases are shown in the Appendix B.

2.3 视频生成基准测试

建立稳健的评估框架对于衡量视频生成模型的进展至关重要。目前的评估方法主要可分为三类:评估基本清晰度和文本-视频对齐的视觉保真度与语义 [67, 85, 108];关注运动一致性和长程叙事连贯性的时间动态 [48, 62, 13];以及检验对惯性、碰撞动力学等基本定律遵循程度的物理合理性 [72, 6, 73, 93]。尽管这些基准测试为通用视频质量提供了有价值的洞见,但它们很大程度上与具身AI的具体需求脱节。具体而言,现有框架通常依赖于孤立的物理约束或局部视觉指标,未能捕捉机器人动作与环境响应之间复杂的相互作用。此外,在多实体场景中,对任务级正确性和空间约束的系统性评估明显缺乏。为了弥合这一差距,我们提出了一个专门为机器人视频生成定制的综合性基准测试,引入了可复现的指标,将物理真实感与面向任务的动作完整性统一起来。

2.3 视频生成基准

建立稳健的评估框架对于衡量视频生成模型的进展至关重要。目前的评估方法主要可分为三类:评估基础清晰度与文本-视频对齐的视觉保真度与语义[67, 85, 108];关注运动一致性与长程叙事连贯性的时序动态[48, 62, 13];以及检验对惯性、碰撞动力学等基本物理定律遵循程度的物理合理性[72, 6, 73, 93]。虽然这些基准为通用视频质量提供了有价值的洞见,但它们与具身AI的具体需求在很大程度上是脱节的。具体而言,现有框架通常依赖于孤立的物理约束或局部视觉指标,未能捕捉机器人动作与环境响应之间复杂的相互作用。此外,在多智能体场景中,严重缺乏对任务级正确性和空间约束的系统性评估。为弥合这一差距,我们提出了一个专门为机器人视频生成定制的综合性基准,引入了可复现的指标,将物理真实感与面向任务的动作完整性统一起来。

3 RBench

Figure 3:
Statistics in RBench. The benchmark covers diverse tasks, object categories, and environments, demonstrating the high quality and comprehensiveness of the evaluation set, highlighting its high applicability to a wide range of robotic video generation scenarios.

现有的视频生成基准主要评估模型在通用场景下的性能[46, 42],而其他专为物理场景设计的基准则主要评估模型的物理推理能力[72, 36]。本文设计了一个专为机器人物理场景定制的基准,旨在全面评估视频生成模型在机器人任务中的性能。该基准与现有的通用场景基准不同,侧重于评估视频生成模型在机器人物理环境中的能力。如图2所示,我们的基准突出了机器人视频生成中常见的失败模式,包括机器人形状畸变、物体属性漂移、非接触附着等问题。3.1节概述了基准构建过程,3.2节讨论了用于评估的自动指标。

3.1 基准构建

为了全面评估视频生成模型在机器人场景中的能力,设计的评估维度必须覆盖广泛的任务场景和具身类型,确保这些场景反映真实的机器人动作语义。为此,我们从任务类别和具身类型两个方面设计了一个多样化的基准,共包含650个评估案例。面向任务的类别包括五个代表性任务:常见操作、长程规划、多实体协作、空间关系和视觉推理,共有250个图文对,每个任务50个样本。面向具身的类别涵盖四种主流具身类型:双臂机器人、人形机器人、单臂机器人和四足机器人,共有400个图文对,每种具身类型100个样本。

该基准包含多样化的文本提示和高质量的机器人参考图像。每个样本图像都是从公开数据集或在线来源的高质量视频中提取的关键帧,每张图像都经过人工验证以确保其准确性。为避免与训练数据重叠,我们确保评估集中选用的视频不出现在后续的训练数据库中,并为每张参考图像重新设计了新的任务提示,有效规避了内容重叠的风险。所有样本均经过人工标注员的验证和筛选,以确保生成的任务提示符合现实逻辑。图3展示了参考图像的高美学质量(a)、涵盖各种物体、任务和动作技能的广泛测试场景(b, c),以及我们评估集中环境的多样性(d)。此外,我们记录了每个样本的元数据,如被操作物体、具身类型和相机视角(第一人称/第三人称),以支持更详细的分析。更多细节见附录A。

3.2 自动指标

现有的视频生成评估方案,如代表性的VBench[46],主要关注感知质量,评估帧清晰度、纹理保真度和运动平滑度等方面。然而,它们缺乏针对机器人场景定制的任务特定标准。最近,一些研究[85, 33, 94]利用多模态大语言模型(MLLM)作为生成视频的零样本评估器。在此基础上,我们将此方法扩展到机器人视频评估领域,并提出了一套自动评估指标,结合人工设计的指标来评估生成的机器人视频的视觉真实性和任务级有效性。遵循先前实践,我们选择开源的Qwen3-VL[3]和闭源的GPT-5[76]作为我们的MLLM评估模型。在以下小节中,我们分别介绍任务完成度和视觉质量的评估方法。关于指标设计和数学定义的更多细节见附录B。

3.2.1 任务完成度

物理语义合理性。该指标针对日常物理和语义合理性违规,这些是标准感知分数常常遗漏的。如图1所示,我们使用MLLM通过VQA风格的协议评估均匀采样帧的时间网格。除了评估物理语义合理性,我们特别强调以下常见失败模式: (i) 漂浮/穿透:机器人或物体的部分未接地或与固体物体相互穿透; (ii) 自发出现/消失:实体在没有因果运动的情况下出现/消失; (iii) 非接触附着/错误抓握:物体在没有可见接触或夹持器闭合不当的情况下随机器人移动。

任务遵循一致性。该指标评估视频是否与提示定义的意图和序列一致。典型的偏差包括动作缺失(例如,接近但没有抓取或放置)、顺序错误(例如,先放置后抓取)、语义漂移(例如,“擦拭”变成“触碰”)以及无响应。我们构建时间网格并应用基于MLLM的VQA检查清单,涵盖: (i) 任务响应性,确保达到目标状态而没有过早中断; (ii) 关键动作,验证所需动作(例如,抓取、放置、打开/关闭)发生并与提示一致。

3.2.2 视觉质量

运动幅度。该指标测量机器人主体的运动幅度,同时排除相机运动引起的明显位移,从而惩罚那些看起来平滑但缺乏有意义主体活动的视频。遵循VMBench[64],使用GroundingDINO[65]定位活动主体,通过GroundedSAM[81]生成时间稳定的掩码,并通过CoTracker[55]跟踪显著点。设 $\bar{D}_{t}$ 为帧 $t$ 上主体跟踪点的平均位移。运动幅度分数(MAS)为

$$ \mathrm{MAS},=,\frac{1}{T}\sum_{t=1}^{T}\min!\bigl(\bar{D}_{t},,1\bigr), $$

其中较低的MAS表示主体运动不足,并通过揭示平滑但不活动的失败模式来补充平滑度指标。

机器人主体稳定性。该指标评估机器人形态和目标物体属性随时间变化的稳定性。典型的失败包括夹持器/手部形状漂移成非机械形态、额外/缺失的机械臂、连杆长度/拓扑结构变化、关节反转、物体误识别或属性漂移(类别、颜色、位置)以及刚性物体的不可能变形。我们采用基于MLLM的对比VQA设置,比较参考帧和生成帧,并针对上述失败模式分配一致性分数。

运动平滑度。该指标量化时间连续性和自然动态,针对从低级混叠到高级抖动/模糊的伪影。遵循VMBench[64],我们使用Q-Align美学分数[99]测量帧间质量稳定性。对于帧 ${f_{t}}{t=1}^{T}$ 和每帧分数 $Q(f{t})$,定义:

$$ \Delta Q_{t},=,Q(f_{t-1})-Q(f_{t}). $$

当 $\Delta Q_{t}$ 超过由机器人主体运动确定的自适应阈值 $\tau_{s}(t)$ 时,标记为时间异常。运动平滑度分数(MSS)为

$$ \mathrm{MSS},=,1-\frac{1}{T}\sum_{t=2}^{T}\mathbb{I}!\bigl(\Delta Q_{t}>\tau_{s}(t)\bigr), $$

其中 $\mathbb{I}(\cdot)$ 是指示函数。较高的MSS表示运动更平滑。

Figure 4:
Overview of RoVid-X Construction and Descriptive Statistics. (a) shows the four-stage pipeline for constructing the RoVid-X. (b) presents descriptive statistics, covering frame intervals, skill distribution, and common objects, highlighting the dataset’s diversity and suitability for robotic task training and video generation.

3.1 基准构建

为全面评估视频生成模型在机器人场景下的能力,所设计的评估维度必须覆盖广泛的任务场景与具身类型,并确保这些场景能反映真实的机器人动作语义。为此,我们从任务类别与具身类型两方面设计了一个多样化的基准,共包含650个评估案例。任务导向的类别包含五个代表性任务:常见操作、长程规划、多实体协作、空间关系和视觉推理,共250个图文对,每个任务50个样本。具身类型导向的类别覆盖四种主流具身类型:双臂机器人、人形机器人、单臂机器人和四足机器人,共400个图文对,每种具身类型100个样本。

该基准包含多样化的文本提示和高质量的机器人参考图像。每个样本图像均是从公开数据集或在线来源的高质量视频中提取的关键帧,且每张图像都经过人工验证以确保其准确性。为避免与训练数据重叠,我们确保评估集中选用的视频未出现在后续的训练数据库中,并为每张参考图像重新设计了新的任务提示,有效规避了内容重叠的风险。所有样本均由人工标注员验证和筛选,以确保生成的任务提示符合现实逻辑。图3展示了参考图像的高美学质量(a)、涵盖各类物体、任务和动作技能的广泛测试场景(b, c),以及评估集中环境的多样性(d)。此外,我们记录了每个样本的元数据,如被操作物体、具身类型和相机视角(第一人称/第三人称),以支持更细致的分析。更多细节见附录A。

3.2 自动化指标

现有的视频生成评估方案,如代表性的VBench [46],主要关注感知质量,评估帧清晰度、纹理保真度和运动平滑度等方面。然而,它们缺乏针对机器人场景的任务特定标准。近期,一些研究 [85, 33, 94] 利用多模态大语言模型(MLLMs)作为生成视频的零样本评估器。在此基础上,我们将此方法扩展到机器人视频评估领域,并提出了一套自动化评估指标,结合人工设计的指标来评估生成机器人视频的视觉真实性和任务级有效性。遵循先前实践,我们选择开源的Qwen3-VL [3] 和闭源的GPT-5 [76] 作为我们的MLLM评估模型。在以下小节中,我们将分别介绍任务完成度和视觉质量的评估方法。关于指标设计和数学定义的更多细节见附录B。

3.2.1 任务完成度

物理语义合理性。该指标针对日常物理和语义合理性违规,这些是标准感知分数常常遗漏的。如图1所示,我们使用MLLM,通过VQA风格的协议评估均匀采样帧的时间网格。除了评估物理语义合理性,我们特别强调以下常见失败模式: (i) 漂浮/穿透:机器人或物体的部分未接地或与固体物体相互穿透; (ii) 自发涌现:实体在没有因果运动的情况下出现/消失; (iii) 非接触附着/错误抓取:物体在没有可见接触或夹持器闭合不当的情况下随机器人移动。

任务依从一致性。该指标评估视频是否符合提示定义的意图和动作序列。典型的偏差包括动作缺失(例如,接近但未抓取或放置)、顺序错误(例如,先放置后抓取)、语义漂移(例如,“擦拭”变成“触碰”)以及无响应。我们构建时间网格并应用基于MLLM的VQA检查清单,涵盖: (i) 任务响应性,确保达到目标状态且未过早中断; (ii) 关键动作,验证所需动作(例如,抓取、放置、打开/关闭)是否发生且与提示一致。

3.2.2 视觉质量

运动幅度。该指标测量机器人主体的运动幅度,同时排除由相机运动引起的表观位移,从而惩罚那些看起来平滑但缺乏有意义主体活动的视频。遵循VMBench [64],使用GroundingDINO [65] 定位活动主体,通过GroundedSAM [81] 生成时间稳定的掩码,并通过CoTracker [55] 跟踪显著点。令 $\bar{D}_{t}$ 为第 $t$ 帧上主体被跟踪点的平均位移。运动幅度分数(MAS)为

$$ \mathrm{MAS},=,\frac{1}{T}\sum_{t=1}^{T}\min!\bigl(\bar{D}_{t},,1\bigr), $$

其中较低的MAS表示主体运动不足,并通过揭示平滑但不活动的失败模式来补充平滑度评估。

机器人主体稳定性。该指标评估机器人形态和目标物体属性随时间变化的稳定性。典型的失败包括夹持器/手部形状漂移成非机械形态、额外/缺失的机械臂、连杆长度/拓扑结构变化、关节反转、物体误识别或属性漂移(类别、颜色、位置),以及刚性物体的不可能形变。我们采用基于MLLM的对比VQA设置,比较参考帧和生成帧,并针对上述失败分配一致性分数。

运动平滑度。该指标量化时间连续性和自然动态,针对从低级混叠到高级抖动/模糊的伪影。遵循VMBench [64],我们使用Q-Align美学分数 [99] 测量帧间质量稳定性。对于帧 ${f_{t}}{t=1}^{T}$ 和每帧分数 $Q(f{t})$,定义:

$$ \Delta Q_{t},=,Q(f_{t-1})-Q(f_{t}). $$

当 $\Delta Q_{t}$ 超过由机器人主体运动确定的自适应阈值 $\tau_{s}(t)$ 时,标记为时间异常。运动平滑度分数(MSS)为

$$ \mathrm{MSS},=,1-\frac{1}{T}\sum_{t=2}^{T}\mathbb{I}!\bigl(\Delta Q_{t}>\tau_{s}(t)\bigr), $$

其中 $\mathbb{I}(\cdot)$ 是指示函数。较高的MSS表示运动更平滑。

图4:RoVid-X构建流程与描述性统计概览。(a)展示了构建RoVid-X的四阶段流程。(b)呈现了描述性统计,涵盖帧间隔、技能分布和常见物体,突出了数据集的多样性和对机器人任务训练与视频生成的适用性。

3.2.1 任务完成度

物理语义合理性。该指标针对日常物理和语义合理性违规,这些是标准感知评分常忽略的。如图1所示,我们使用MLLM以VQA风格协议评估均匀采样帧的时间网格。除了评估物理语义合理性,我们特别关注以下常见失效模式: (i) 漂浮/穿透:机器人或物体的部分未接地或与固体对象相互穿透; (ii) 自发涌现:实体在没有因果运动的情况下出现/消失; (iii) 非接触附着/错误抓取:物体在没有可见接触或夹爪闭合不当的情况下随机器人移动。

任务依从一致性。该指标评估视频是否与提示定义的意图和序列一致。典型偏差包括:动作缺失(例如,接近但未抓取或放置)、顺序错误(例如,先放置后抓取)、语义漂移(例如,“擦拭”变成“触碰”)以及无响应。我们构建时间网格并应用基于MLLM的VQA检查清单,涵盖: (i) 任务响应性,确保达到目标状态且未提前中断; (ii) 关键动作,验证所需动作(例如,抓取、放置、打开/关闭)是否发生且与提示一致。

3.2.2 视觉质量

运动幅度。该指标测量机器人主体的运动幅度,同时排除相机运动引起的表观位移,从而惩罚那些看起来平滑但缺乏有意义主体活动的视频。 遵循VMBench [64],使用GroundingDINO [65]定位活动主体,通过GroundedSAM [81]生成时间稳定的掩码,并通过CoTracker [55]跟踪显著点。设 $\bar{D}_{t}$ 为第 $t$ 帧主体上被跟踪点的平均位移。运动幅度评分(MAS)为

$$ \mathrm{MAS},=,\frac{1}{T}\sum_{t=1}^{T}\min!\bigl(\bar{D}_{t},,1\bigr), $$

其中较低的MAS表示主体运动不足,并通过揭示“平滑但不活动”的失效模式来补充平滑度评估。

机器人主体稳定性。该指标评估机器人形态和目标物体属性随时间变化的稳定性。典型失效包括:夹爪/手部形状漂移为非机械形态、额外/缺失的机械臂、连杆长度/拓扑结构变化、关节反转、物体误识别或属性漂移(类别、颜色、位置)以及刚性物体的不可能变形。我们采用基于MLLM的对比VQA设置,比较参考帧和生成帧,并针对上述失效分配一致性评分。

运动平滑度。该指标量化时间连续性和自然动力学,针对从低级混叠到高级抖动/模糊的伪影。遵循VMBench [64],我们使用Q-Align美学评分 [99] 测量帧间质量稳定性。对于帧序列 ${f_{t}}{t=1}^{T}$ 和每帧评分 $Q(f{t})$,定义:

$$ \Delta Q_{t},=,Q(f_{t-1})-Q(f_{t}). $$

当 $\Delta Q_{t}$ 超过由机器人主体运动确定的自适应阈值 $\tau_{s}(t)$ 时,标记为时间异常。运动平滑度评分(MSS)为

$$ \mathrm{MSS},=,1-\frac{1}{T}\sum_{t=2}^{T}\mathbb{I}!\bigl(\Delta Q_{t}>\tau_{s}(t)\bigr), $$

其中 $\mathbb{I}(\cdot)$ 是指示函数。较高的MSS表示运动更平滑。

Figure 4:
Overview of RoVid-X Construction and Descriptive Statistics. (a) shows the four-stage pipeline for constructing the RoVid-X. (b) presents descriptive statistics, covering frame intervals, skill distribution, and common objects, highlighting the dataset’s diversity and suitability for robotic task training and video generation.

4 RoVid-X

本节介绍高质量机器人视频数据集的构建过程,最终形成RoVid-X数据集。该数据集通过一个精炼的四阶段流程构建,如图4 (a)所示。数据集主要来源于互联网上公开或不受版权保护的机器人视频,以及开源具身视频数据集,所有数据均获授权使用。我们将介绍数据集的构建过程并提供统计信息。

4.1 数据集构建

我们的数据处理流程包含四个独立的阶段,每个阶段都旨在确保所收集数据的质量、多样性和相关性。这些阶段概述如下:

机器人视频收集。在第一阶段,我们从大型互联网视频平台和超过20个开源具身视频数据集中收集原始机器人视频。这些数据集涵盖了多种机器人类型和任务场景,确保了数据的广度和多样性。为了提高数据集的相关性和质量,我们采用GPT-5模型[76]自动过滤每个视频的内容,并移除与研究方向不符的低质量或不相关的视频片段。在过滤过程中,GPT-5根据视觉内容和字幕识别与机器人任务和动作相关的视频,确保所有收集到的视频都能有效支持机器人任务的训练和评估。经过此过滤过程,我们识别出约300万个原始机器人视频片段,涵盖了不同的动作、任务和机器人类型。

视频质量过滤。在此阶段,我们对收集的视频执行严格的过滤程序,以移除与研究方向不符的低质量和不相关的视频片段。首先,我们应用场景分割检测来移除所有与机器人无关的视频数据。然后,我们使用视频质量评分系统从多个维度评估视频,包括清晰度、动态效果、美学表现和光学字符识别(OCR)等指标。每个视频片段根据这些标准被分配一个质量分数,确保最终数据集中保留的视频符合高质量标准。

[Table 1: Comparison of representative robotic video datasets.]

任务分割与字幕生成。在此阶段,我们使用视频理解模型[34]和专门设计的提示模板来自动分析视频中的机器人动作。系统根据时间戳将视频分割成不同的任务片段,并为每个任务片段生成简短的字幕,准确描述机器人在该任务中的动作和操作细节。

每个任务片段的动作识别和描述过程遵循以下步骤:首先,系统识别视频中的所有动态动作,并排除静态场景或不相关的动作(例如等待或保持静止)。每个动作的时间范围(开始和结束时间)被精确标注以确保准确性。接下来,使用MLLM模型[34]自动生成每个动作的文本描述,包括动作主体(例如“右臂”或“左夹爪”)、被操作的对象(例如“铭牌”或“盒子”)以及具体的操作细节(例如“抓取并移动”或“从桌上移除”)。最后,每个任务片段的字幕以标准化格式输出,确保每个视频片段的动作描述清晰、简洁且符合任务要求。

物理属性标注。为确保机器人动作在物理空间中的一致性和真实感,我们对视频应用物理属性增强。具体而言,我们使用FlashVSR[114]来提高视频分辨率,使图像更清晰并增强动作细节。然后,使用AllTracker工具[43]为视频中的主体标注统一的光流,确保在不同场景中跟踪和记录机器人动作的一致性。此外,使用Video Depth Anything[16]生成相对深度图,以准确描述场景中物体的空间关系和深度信息。这些物理属性标注的目标是为研究人员提供更精确的参考数据,有助于机器人视频生成模型的训练和评估,并为未来的研究提供更丰富的物理数据支持。

[Table 2: RBench quantitative results. Evaluations across task-oriented and embodiment-specific dimensions for 25 models from open-source, commercial, and robotics-specific families. The "Avg." column shows the mean score across nine indicators, with task performance in the left block and embodiment performance in the right block. In the table, a "#" next to the Sora2 model in the top right corner indicates review limitations from the official Sora API, where approximately 50 out of 650 videos could not be generated. The scores derived from sub-metrics are reported in the Appendix G.]

4.2 数据集分析

RoVid-X是首个专为训练视频生成模型而设计的开源大规模机器人视频数据集,包含400万个机器人视频片段。该数据集旨在解决视频生成模型在生成机器人视频时面临的物理挑战,为训练和评估提供高质量数据。RoVid-X旨在弥合传统视频生成任务与具身机器人学习独特需求之间的差距,其中物理交互、空间关系和现实世界动态起着至关重要的作用。

该数据集涵盖了多样化的机器人动作、任务和机器人类型,确保了其在不同机器人领域的适用性。通过整合来自各种机器人类型和场景的视频,RoVid-X全面覆盖了机器人训练所需的物理属性和任务要求。如图4 (b)所示,我们提供了数据集的详细统计信息,展示了在动作技能、任务类型和交互对象方面的多样性。RoVid-X广泛的数据分布对于支持开发能够在动态环境中模拟真实机器人行为的鲁棒视频生成模型至关重要。

4.1 数据集构建

我们的数据处理流程包含四个独立的阶段,每个阶段都旨在确保所收集数据的质量、多样性和相关性。各阶段概述如下:

机器人视频收集。 在第一阶段,我们从大型互联网视频平台以及超过20个开源具身视频数据集中收集原始机器人视频。这些数据集涵盖了多种机器人类型和任务场景,确保了数据的广度和多样性。为了提高数据集的相关性和质量,我们采用GPT-5模型[76]来自动筛选每个视频的内容,移除与研究方向不符的低质量或不相关视频片段。在筛选过程中,GPT-5根据视觉内容和字幕识别与机器人任务及动作相关的视频,确保所有收集到的视频都能有效支持机器人任务的训练与评估。经过此筛选过程,我们识别出约300万个原始机器人视频片段,涵盖了不同的动作、任务和机器人类型。

视频质量过滤。 在此阶段,我们对收集到的视频执行严格的过滤程序,以移除与研究方向不符的低质量和不相关视频片段。首先,我们应用场景分割检测来移除所有与机器人无关的视频数据。接着,我们使用视频质量评分系统从多个维度评估视频,包括清晰度、动态效果、美学表现以及光学字符识别(OCR)等指标。每个视频片段根据这些标准被赋予一个质量分数,确保最终数据集中保留的视频符合高质量标准。

[Table 1: Comparison of representative robotic video datasets.]

任务分割与字幕生成。 在此阶段,我们使用视频理解模型[34]和一个专门设计的提示模板来自动分析视频中的机器人动作。系统根据时间戳将视频分割为不同的任务片段,并为每个任务片段生成简短的描述性字幕,准确描述机器人在该任务中的动作和操作细节。

每个任务片段的动作识别与描述过程遵循以下步骤:首先,系统识别视频中的所有动态动作,并排除静态场景或不相关动作(例如等待或保持静止)。每个动作的时间范围(开始和结束时间)被精确标注以确保准确性。接着,利用MLLM模型[34]自动生成每个动作的文本描述,包括动作主体(例如“右臂”或“左夹爪”)、被操作的对象(例如“铭牌”或“箱子”)以及具体的操作细节(例如“抓取并移动”或“从桌上移除”)。最后,每个任务片段的字幕以标准化格式输出,确保每个视频片段的动作描述清晰、简洁且符合任务要求。

物理属性标注。 为确保机器人动作在物理空间中的一致性和真实感,我们对视频应用物理属性增强。具体而言,我们使用FlashVSR[114]提升视频分辨率,使图像更清晰并增强动作细节。然后,利用AllTracker工具[43]为视频中的主体标注统一的光流,确保在不同场景下机器人动作的追踪与记录具有一致性。此外,使用Video Depth Anything[16]生成相对深度图,以准确描述场景中物体的空间关系和深度信息。这些物理属性标注的目的是为研究者提供更精确的参考数据,辅助机器人视频生成模型的训练与评估,并为未来研究提供更丰富的物理数据支持。

[Table 2: RBench quantitative results. Evaluations across task-oriented and embodiment-specific dimensions for 25 models from open-source, commercial, and robotics-specific families. The "Avg." column shows the mean score across nine indicators, with task performance in the left block and embodiment performance in the right block. In the table, a "#" next to the Sora2 model in the top right corner indicates review limitations from the official Sora API, where approximately 50 out of 650 videos could not be generated. The scores derived from sub-metrics are reported in the Appendix G.]

4.2 数据集分析

RoVid-X是首个专为训练视频生成模型而设计的开源大规模机器人视频数据集,包含400万个机器人视频片段。该数据集旨在解决视频生成模型在生成机器人视频时面临的物理挑战,为训练和评估提供高质量数据。RoVid-X致力于弥合传统视频生成任务与具身机器人学习独特需求之间的鸿沟,其中物理交互、空间关系和真实世界动态起着至关重要的作用。

该数据集涵盖了多样化的机器人动作、任务和机器人类型,确保其在不同机器人领域的适用性。通过整合来自各种机器人类型和场景的视频,RoVid-X全面覆盖了机器人训练所需的物理属性和任务要求。如图4(b)所示,我们提供了数据集的详细统计信息,展示了其在动作技能、任务类型和交互对象方面的多样性。RoVid-X广泛的数据分布对于支持开发能够在动态环境中模拟真实机器人行为的鲁棒视频生成模型至关重要。

5 实验

Figure 5:
Qualitative comparison across representative tasks.
We visualize the generated results for three representative tasks: Visual Reasoning, Long-horizon Planning, and Spatial Relationship, across six models. Each row displays temporally sampled frames from the same generated video, with captions below indicating the corresponding task instruction. More cases are shown in the Appendix.

5.1 评估设置

评估模型。我们评估了25个最先进的视频生成模型,并将其分为三种类型。具体而言,闭源模型包括海螺 [41]、万 [92]、Veo 3 [30]、Sora [75, 77]、Kling [58]、Seedance [29, 17] 等,而开源模型则包括混元视频 [59, 98]、LTX [40, 39] 和 CogVideoX [106] 等多个代表性模型。此外,我们还评估了专门为机器人任务设计的模型,如 DreamGen [47]、Vidar [25] 和 Cosmos 2.5 [2]。对这些模型的评估涵盖了多种具身形态和多项任务,为模型性能提供了全面的视角。

实现细节。为确保公平比较,所有开源模型均使用其官方默认配置生成视频,以保证与模型预设设置的一致性。对于闭源视频模型,我们使用其官方 API,并严格遵循开发者推荐的模型调用和使用方法。在基准测试中,我们为每个图文对生成视频。为最小化误差,每个模型样本生成三个视频,并取平均值作为该样本的最终得分。这些生成的视频使用我们提出的自动化评估指标进行评估,这些指标旨在全面评估生成视频的多个方面,包括任务完成度、动作一致性、物理合理性等。模型设置和配置参数的更多细节见附录 C。

[Table 3: Comparison between human preference scores and RBench scores. This table demonstrates a high correlation between the two sets of scores, as reflected in the similar ranking orders.Table 4: RoVid-X effectiveness validation experiment. The experimental results using different models for finetuning show stable improvements across various dimensions, validating the effectiveness of the dataset.]

5.2 主要分析

5.2.1 定量结果

表2展示了跨不同模型架构、任务和具身形态的全面定量评估。除了标准性能指标,结果揭示了视频生成领域一个关键的范式转变。

从视觉保真度到物理智能。观察到的最显著趋势是视频生成模型从追求高保真可视化转向处理物理世界的复杂动态。传统指标优先考虑像素级质量,而我们的基准测试突显,顶级商业模型(如万 2.6、Seedance 1.5 Pro)正开始成为有效的“世界模拟器”。这表明该领域正迈向一个新阶段:物理人工智能(Physical AI),模型必须理解和模拟交互丰富、物理挑战大的真实世界场景,而不仅仅是生成美观的视频。

迭代扩展解锁物理能力。分析模型演进揭示了模型迭代与物理推理能力之间的强相关性。例如,万系列表现出显著的性能飞跃:从万 2.1(排名 14,0.399)到万 2.6(排名 1,0.607)。同样,Seedance 从 1.0 演进到 1.5 Pro,排名从第6位升至第2位。这些实质性提升表明,扩展定律和迭代优化不仅改善了视觉质量,而且正在积极提升模型对物理、独特运动模式和控制逻辑的理解。

消费级模型中的“媒体-模拟”鸿沟。令人惊讶的是,广受认可的消费级模型(如 Sora 系列)在此基准测试中表现不佳(Sora v2 Pro 排名 17,平均分 0.362)。这一反直觉的结果突显了一个关键的“领域鸿沟”:为媒体消费优化的模型优先考虑视觉流畅性和电影化转场,往往以牺牲物理保真度和精确运动控制为代价。这种差异表明,创意视频生成方面的熟练度并不能自然地迁移到具身人工智能任务,这强调了基于物理的训练数据的必要性。

闭源模型在性能上领先。商业闭源模型在我们的基准测试中占据了前7位,显示出相对于开源模型清晰且一致的优势。最先进的商业模型(万 2.6)与领先的开源模型(万 2.2)之间存在显著的性能差距,突显了巨大的能力鸿沟。这种差异强调了开源社区面临的关键紧迫性:要实现高性能基础模型的民主化,需要在扩展物理训练数据和优化具身视频任务架构方面做出更多协同努力。

专业化的困境:领域数据与世界知识。虽然通用基础模型在排行榜上领先,但机器人专用模型 Cosmos 2.5 表现出显著的韧性。尽管落后于顶级商业模型,但其性能显著优于规模更大的开源视频模型,证实了使用物理数据进行训练能在机器人任务中带来稳定的收益。相反,在特定机器人实体上微调的模型(如 Vidar、UnifoLM)表现明显不佳,排名垫底。这种对比突显了一个关键的权衡:虽然领域特定数据对于控制精度很有价值,但它无法完全弥补大规模预训练所提供的“世界知识”的不足。平衡专有机器人数据与可泛化的表示,仍然是未来研究的关键挑战。

认知与细粒度控制的瓶颈。所有模型系列中一个一致的趋势是,需要高级逻辑或精确交互的任务代表了最显著的性能瓶颈。 首先,在认知能力方面,我们观察到一个显著的“认知鸿沟”:虽然万 2.6 等顶级模型在执行导向的任务中表现出色,但其在视觉推理任务上的性能急剧下降(0.531)。此外,分析特定具身形态揭示了一个“操作鸿沟”:模型在粗粒度运动任务(四足、人形)上的得分始终高于细粒度操作任务。这意味着对于当前的视频生成器,掌握物体交互所需的细粒度接触动力学,在物理上比生成有节奏的腿部运动模式更具挑战性。

5.2.2 定性结果

我们对代表性任务进行了定性分析,部分结果如图5所示。对于视觉推理任务,Seedance 1.0 [29] 和海螺 [41] 正确识别了蓝色衣物和空心篮子,而万 2.5 [92] 错误地将编织篮子识别为空心篮子。在长时程规划任务中,万 2.5 成功按正确顺序完成了所有动作,而海螺缺少“打开”动作,导致违反物理逻辑。在空间关系任务中,海螺正确地将小白菜放在了锅的左侧,而其他模型错误地将其放在了锅内。值得注意的是,LongCat-Video 引入了不现实的人类手臂干预,破坏了物理合理性。更详细的分析和定性结果见附录 F。

这些模型各有优势,但其整体性能仍有很大的提升空间。这进一步突显了设计此类基准测试以推动视频生成模型在机器人任务中发展的必要性。

5.3 人类偏好研究

我们进行了一项人类偏好研究,以评估自动指标与人类感知的一致性。邀请了三十名参与者。对于每次比较,并排展示同一提示和视频实例的两个模型输出,标注者从三个选项中选择:“A 更好”、“B 更好”或“平局”。投票汇总为每个模型的得分:获胜贡献 55 分,失败贡献 11 分,平局则双方各得 33 分。 然后,我们将这些模型级别的人类得分与相应的 RBench 基准得分进行比较。在研究使用的十模型子集上,人类得分与 RBench 得分之间的斯皮尔曼等级相关系数为 $\rho=0.96$(双尾 $p<10^{-3}$)。 表4展示了十个选定模型的人类得分、RBench 得分和排名,其中 $\Delta r$ 列表示排名差异 $(r_{b}-r_{h})$。 总体而言,在基准测试中排名最高的模型在很大程度上与人类判断相符,而其余的小差异则突显了进一步优化指标以提升与人类一致性的机会。高度的一致性进一步证明了我们的自动化指标在评估视频生成模型方面的有效性和有效性,表明这些指标准确地反映了人类感知,从而为机器人视频生成任务提供了可靠的评估标准。更多细节请参阅附录 D。

5.4 RoVid-X 有效性验证

为了评估 RoVid-X 的有效性和鲁棒性,我们使用仅 MSE 损失对以万2.1 14B 和万2.2 5B 权重初始化的模型进行微调。由于计算限制,我们从原始 RoVid-X 数据集中随机采样了 200k 个实例。结果如表4所示,突显了我们的数据集在五个任务领域和四种不同具身形态上显著提升了性能。这些改进验证了所提出的数据集以及我们的数据收集流程。

5.1 评估设置

评估模型。 我们评估了25个最先进的视频生成模型,并将其分为三种类型。具体而言,闭源模型包括海螺 [41]、万 [92]、Veo 3 [30]、Sora [75, 77]、Kling [58]、Seedance [29, 17] 等,而开源模型则包括混元视频 [59, 98]、LTX [40, 39] 和 CogVideoX [106] 等几个代表性模型。此外,我们还评估了专门为机器人任务设计的模型,例如 DreamGen [47]、Vidar [25] 和 Cosmos 2.5 [2]。对这些模型的评估涵盖了多种具身形态和多项任务,为模型性能提供了全面的视角。

实现细节。 为确保公平比较,所有开源模型均使用其官方默认配置生成视频,以保证与模型预设设置的一致性。对于闭源视频模型,我们使用其官方 API,并严格遵循开发者推荐的调用和使用方法。在基准测试中,我们为每个图文对生成视频。为最小化误差,我们对每个模型样本生成三个视频,并取平均值作为该样本的最终得分。 这些生成的视频使用我们提出的自动化评估指标进行评估,这些指标旨在全面评估生成视频的多个方面,包括任务完成度、动作一致性、物理合理性等。关于模型设置和配置参数的更多细节见附录 C。

[Table 3: Comparison between human preference scores and RBench scores. This table demonstrates a high correlation between the two sets of scores, as reflected in the similar ranking orders.Table 4: RoVid-X effectiveness validation experiment. The experimental results using different models for finetuning show stable improvements across various dimensions, validating the effectiveness of the dataset.]

5.2 主要分析

5.2.1 量化结果

表2展示了跨不同模型架构、任务和具身形态的全面量化评估。除了标准性能指标,结果揭示了视频生成领域一个关键的范式转变。

从视觉保真度到物理智能。 观察到的最显著趋势是视频生成模型从追求高保真可视化转向处理物理世界的复杂动态。虽然传统指标优先考虑像素级质量,但我们的基准测试凸显,顶级商业模型(例如万 2.6、Seedance 1.5 Pro)正开始成为有效的“世界模拟器”。这表明该领域正迈向一个新阶段:物理人工智能,模型必须理解并模拟交互丰富、物理挑战性强的现实世界场景,而不仅仅是生成美观的视频。

迭代扩展解锁物理能力。 分析模型演进揭示了模型迭代与物理推理能力之间的强相关性。例如,万系列表现出显著的性能飞跃:从万 2.1(排名 14,0.399)到万 2.6(排名 1,0.607)。同样,Seedance 从 1.0 演进到 1.5 Pro,排名从第 6 位攀升至第 2 位。这些实质性增益表明,扩展定律和迭代优化不仅提升了视觉质量,而且正在积极改进模型对物理、独特运动模式和控制逻辑的理解。

消费级模型中的“媒体-模拟”差距。 令人惊讶的是,像 Sora 系列这样广为人知的消费导向模型在此基准测试中表现不佳(Sora v2 Pro 排名第 17,平均分 0.362)。这一反直觉的结果突显了一个关键的“领域差距”:为媒体消费优化的模型优先考虑视觉流畅性和电影化转场,往往以牺牲物理保真度和精确运动控制为代价。这种差异表明,创意视频生成方面的能力并不能自然地迁移到具身人工智能任务,这强调了基于物理的训练数据的必要性。

闭源模型在性能上领先。 商业闭源模型在我们的基准测试中占据了前 7 位,显示出相对于开源模型的明确且一致的优势。最先进的商业模型(万 2.6)与领先的开源模型(万 2.2)之间的显著性能差距突显了巨大的能力鸿沟。这种差异凸显了开源社区面临的一个紧迫问题:要实现高能力基础模型的民主化,需要在扩展物理训练数据和优化面向具身视频任务的架构方面做出更多协同努力。

专业化的困境:领域数据与世界知识。 虽然通用基础模型在排行榜上领先,但专为机器人设计的模型 Cosmos 2.5 表现出了显著的韧性。尽管落后于顶级商业模型,但其性能明显优于规模更大的开源视频模型,这证实了使用物理数据进行训练能在机器人任务中带来稳定的收益。相反,在特定机器人实体上微调的模型(例如 Vidar、UnifoLM)表现明显不佳,排名垫底。这种对比突显了一个关键的权衡:虽然领域特定数据对于控制精度有价值,但它无法完全弥补大规模预训练所提供的“世界知识”的不足。平衡专有机器人数据与可泛化的表征,仍然是未来研究的关键挑战。

认知与细粒度控制瓶颈。 所有模型系列中一个一致的趋势是,需要高级逻辑或精确交互的任务代表了最显著的性能瓶颈。 首先,在认知能力方面,我们观察到一个显著的“认知差距”:虽然像万 2.6 这样的顶级模型在执行导向任务中表现出色,但它们在视觉推理任务上的性能急剧下降(0.531)。此外,分析特定具身形态揭示了一个“操作差距”:模型在粗粒度运动任务(四足、人形)上的得分始终高于细粒度操作任务。这意味着对于当前的视频生成器,掌握物体交互所需的细粒度接触动力学,在物理上比生成有节奏的腿部运动模式更具挑战性。

5.2.2 定性结果

我们对代表性任务进行了定性分析,部分结果如图5所示。在视觉推理任务中,Seedance 1.0 [29] 和海螺 [41] 正确识别了蓝色衣服和空心篮子,而万 2.5 [92] 错误地将编织篮子识别为空心篮子。在长时程规划任务中,万 2.5 成功按正确顺序完成了所有动作,而海螺缺少了“打开”动作,导致违反了物理逻辑。在空间关系任务中,海螺正确地将小白菜放在了锅的左侧,而其他模型错误地将其放在了锅内。值得注意的是,LongCat-Video 引入了不现实的人类手臂干预,破坏了物理合理性。更详细的分析和定性结果见附录 F。

这些模型各有优势,但其整体性能仍有巨大的改进空间。这进一步凸显了设计此类基准测试以推动视频生成模型在机器人任务中发展的必要性。

5.2.1 量化结果

表2展示了跨不同模型架构、任务与具身形态的综合量化评估结果。除了标准性能指标,这些结果揭示了视频生成领域一个关键的范式转变。

从视觉保真度到物理智能。 观察到的最显著趋势是视频生成模型从追求高保真可视化转向应对物理世界的复杂动态。传统指标优先考虑像素级质量,而我们的基准测试凸显,顶尖商业模型(如 Wan 2.6、Seedance 1.5 Pro)正开始作为有效的“世界模拟器”崭露头角。这表明该领域正迈向一个新阶段:物理人工智能(Physical AI)。在此阶段,模型必须理解并模拟交互丰富、物理挑战性强的真实世界场景,而非仅仅生成视觉上美观的视频。

迭代扩展解锁物理能力。 分析模型演进过程,发现模型迭代与物理推理能力之间存在强相关性。例如,Wan 系列表现出显著的性能飞跃:从 Wan 2.1(排名 14,得分 0.399)到 Wan 2.6(排名 1,得分 0.607)。同样,Seedance 从 1.0 演进到 1.5 Pro,排名从第 6 位攀升至第 2 位。这些大幅提升表明,扩展定律和迭代优化不仅改善了视觉质量,更在积极提升模型对物理规律、独特运动模式和控制逻辑的理解。

消费级模型的“媒体-模拟”鸿沟。 令人意外的是,Sora 系列等广为人知的消费级模型在此基准测试中表现欠佳(Sora v2 Pro 排名 17,平均分 0.362)。这一反直觉的结果突显了一个关键的“领域鸿沟”:为媒体消费优化的模型优先考虑视觉流畅性和电影化转场,往往以牺牲物理真实性和精确运动控制为代价。这种差异表明,创意视频生成方面的熟练度并不能自然迁移到具身人工智能任务,这强调了基于物理的训练数据的必要性。

闭源模型在性能上领先。 商业闭源模型占据了本基准测试的前 7 位,相较于开源模型展现出明确且一致的优势。最先进的商业模型(Wan 2.6)与领先的开源模型(Wan 2.2)之间存在显著的性能差距。这种差异突显了开源社区面临的一项紧迫任务:要实现高性能基础模型的民主化,需要在扩展物理训练数据和优化具身视频任务架构方面付出更协同的努力。

专业化的困境:领域数据与世界知识。 虽然通用基础模型在排行榜上领先,但机器人专用模型 Cosmos 2.5 展现了显著的鲁棒性。尽管落后于顶级商业模型,但其性能显著优于规模更大的开源视频模型,证实了使用物理数据进行训练能在机器人任务中带来稳定的收益。相反,在特定机器人实体上微调的模型(如 Vidar、UnifoLM)表现严重不佳,排名垫底。这种对比突显了一个关键的权衡:虽然领域特定数据对控制精度有价值,但它无法完全弥补大规模预训练所提供的“世界知识”的缺失。平衡专有机器人数据与可泛化的表征,仍是未来研究的关键挑战。

认知与细粒度控制瓶颈。 所有模型家族中一个一致的趋势是,需要高级逻辑或精确交互的任务构成了最显著的性能瓶颈。 首先,在认知能力方面,我们观察到一个显著的“认知鸿沟”:虽然 Wan 2.6 等顶级模型在执行导向型任务中表现出色,但它们在视觉推理任务上的性能急剧下降(0.531)。此外,分析特定具身形态揭示了一个“操作鸿沟”:模型在粗粒度运动任务(四足、人形)上的得分始终高于细粒度操作任务。这意味着对于当前的视频生成器,掌握物体交互所需的细粒度接触动力学,在物理上比生成有节奏的腿部运动模式更具挑战性。

5.2.2 定性结果

我们对代表性任务进行了定性分析,部分结果如图5所示。在视觉推理任务中,Seedance 1.0 [29] 和 Hailuo [41] 正确识别了蓝色衣物和镂空篮子,而 Wan 2.5 [92] 错误地将编织篮子识别为镂空篮子。在长时程规划任务中,Wan 2.5 成功按正确顺序完成了所有动作,而 Hailuo 缺少“打开”动作,导致违反物理逻辑。在空间关系任务中,Hailuo 正确地将白菜放置在锅的左侧,而其他模型错误地将其放置在锅内。值得注意的是,LongCat-Video 引入了不真实的人类手臂干预,破坏了物理合理性。更详细的分析和定性结果见附录 F。

这些模型各有优势,但其整体性能仍有巨大提升空间。这进一步凸显了设计此类基准测试以推动视频生成模型在机器人任务中发展的必要性。

5.3 人类偏好研究

我们进行了一项人类偏好研究,以评估自动指标与人类感知的一致性。邀请了三十名参与者。对于每次比较,同一提示和视频实例的两个模型输出并排呈现,标注者从三个选项中选择:“A 更好”、“B 更好”或“平局”。投票汇总为每个模型的得分:胜出计 55 分,失败计 11 分,平局双方各计 33 分。 随后,我们将这些模型级别的人类得分与相应的 RBench 基准得分进行比较。在研究使用的十模型子集上,人类得分与 RBench 得分之间的斯皮尔曼等级相关系数为 $\rho=0.96$(双尾 $p<10^{-3}$)。 表4展示了十个选定模型的人类得分、RBench 得分和排名,其中 $\Delta r$ 列表示排名差异 $(r_{b}-r_{h})$。 总体而言,在基准测试中排名最高的模型在很大程度上与人类判断一致,而剩余的小差异则凸显了进一步完善指标以提升与人类对齐度的机会。高度的一致性进一步证明了我们自动指标在评估视频生成模型方面的有效性和可靠性,表明这些指标准确地反映了人类感知,从而为机器人视频生成任务提供了可靠的评估标准。更多细节请参阅附录 D。

5.4 RoVid-X 的验证

为了评估 RoVid-X 的有效性和鲁棒性,我们使用 MSE 损失对以 Wan2.1 14B 和 Wan2.2 5B 权重初始化的模型进行了微调。由于计算限制,我们从原始 RoVid-X 数据集中随机采样了 20 万个实例。表4所示的结果表明,我们的数据集在五个任务领域和四种不同的具身形态上均显著提升了性能。这些改进验证了所提出的数据集以及我们的数据收集流程。

6 结论

本研究重新思考了具身世界中的视频生成模型,并提出了RBench这一新基准,旨在填补机器人导向视频生成模型评估的关键空白。与以往主要依赖感知指标的方法不同,RBench综合了任务级准确性和视觉保真度,采用了一套包含结构一致性与物理合理性等详细子指标的全面评估体系。对25个模型的评估结果表明,当前视频生成模型在生成物理真实的机器人行为方面仍需显著改进。RBench得分与人工评估结果之间的强相关性进一步验证了该基准的有效性。此外,RoVid-X通过为视频生成任务提供大规模、多样化的资源,克服了现有机器人数据集的局限性。RBench与RoVid-X共同为推进机器人领域的视频生成模型奠定了坚实基础。我们的研究结果揭示了当前视频基础模型的不足,并指出了可能的改进方向,为研究者通过视频世界模型探索具身领域提供了新的视角。

未来工作。我们致力于弥合视频生成与可执行机器人策略之间的鸿沟。计划利用逆动力学模型从生成的视频中恢复可执行动作,从而在仿真环境和真实硬件上实现闭环控制实验。此外,我们将开发更自动化、物理基础更坚实的评估指标,以严格评估生成行为的运动学与动力学可行性。同时,我们将专注于训练具备更强物理能力的视频生成模型,使其能够生成执行高保真动作的机器人视频。最终,这些努力将加速视频驱动具身智能综合解决方案的发展。

本文编译自 Rethinking Video Generation Model for the Embodied World,版权归原作者所有。

觉得有用?分享给更多人

获取每周 AI 工具精选

工具推荐、实战教程和生态洞察,每周更新。

相关文章

Simon Willison 正在重构 LLM Python 库的抽象层,以支持服务器端工具执行等新功能。他利用 Claude Code 分析了四大 LLM 提供商的客户端库,生成了用于测试的 curl 命令和 JSON 输出。这些调研材料已开源,旨在帮助设计更通用的 API 抽象。

深度Simon Willison·4月5日·1 分钟

智能体技能——包含程序性知识和可执行资源的结构化包,供智能体在推理时动态加载——已成为增强 LLM 智能体的可靠机制。然而,推理时技能增强存在根本性限制:检索噪声引入无关指导,注入的技能内容带来大量 token 开销,而模型从未真正习得它所遵循的知识。我们提出一个问题:技能是否可以被内化到模型参数中,使其在无需任何运行时技能检索的情况下实现零样本自主行为?我们提出 Skill0,一个专为技能内化设计的上下文强化学习框架。Skill0 引入了一种训练时课程,从提供完整技能上下文开始,逐步撤除。技能按类别离线分组,并与交互历史一起渲染为紧凑的视觉上下文,教授模型工具调用和多轮任务完成。动态课程机制…

深度·4月5日·17 分钟

评论