RT-2:视觉-语言-动作模型将网络知识迁移至机器人控制
https://robotics-transformer2.github.io 2023-8-1 RT-2:视觉-语言-动作模型将网络知识迁移至机器人控制 Anthony Brohan, Noah Brown, Justice Carbajal, Yevgen Chebotar, Xi Chen, Krzysztof Choromanski, Tianli Ding, Danny Driess, Avinava Dubey, Chelsea Finn, Pete Florence, Chuyuan Fu, Montse Gonzalez Arenas, Keerthana Gopalakrishnan, Kehang Han, Karol Hausman, Alexander Herzog, Jasmine Hsu, Brian Ichter, Alex Irpan, Nikhil Joshi, Ryan Julian, Dmitry Kalashnikov, Yuheng Kuang, Isabel Leal, Lisa Lee, Tsang-Wei Edward Lee, Sergey Levine, Yao Lu, Henryk Michalewski, Igor Mordatch, Karl Pertsch, Kanishka Rao, Krista Reymann, Michael Ryoo, Grecia Salazar, Pannag Sanketi, Pierre Sermanet, Jaspiar Singh, Anikait Singh, Radu Soricut, Huong Tran, Vincent Vanhoucke, Quan Vuong, Ayzaan Wahid, Stefan Welker, Paul Wohlhart, Jialin Wu, Fei Xia, Ted Xiao, Peng Xu, Sichun Xu, Tianhe Yu, and Brianna Zitkovich Google DeepMind。作者按字母顺序排列,具体贡献见附录A。
我们研究如何将基于互联网规模数据训练的视觉-语言模型(Vision-Language Model)直接整合到端到端机器人控制中,以提升泛化能力并实现涌现的语义推理。我们的目标是让一个端到端训练的单一模型,既能学习将机器人观测映射为动作,又能受益于来自网络的大规模语言和视觉-语言数据的预训练。为此,我们提出在机器人轨迹数据和互联网规模的视觉-语言任务(如视觉问答)上共同微调(co-fine-tune)最先进的视觉-语言模型。与其他方法不同,我们提出一个简单、通用的方案来实现这一目标:为了将自然语言响应和机器人动作统一到相同格式中,我们将动作表示为文本标记,并以与自然语言标记相同的方式直接将其纳入模型的训练集。我们将此类模型称为视觉-语言-动作模型(Vision-Language-Action Model, VLA),并实例化了一个此类模型的示例,称之为RT-2。
我们广泛的评估(6000次评估试验)表明,我们的方法能产生高性能的机器人策略,并使RT-2能够从互联网规模的训练中获得一系列涌现能力。这包括:对未见物体的泛化能力显著提升;能够解释机器人训练数据中未出现的指令(例如将物体放置在特定数字或图标上);能够根据用户指令执行初步推理(例如拾取最小或最大的物体,或最靠近另一个物体的物体)。我们进一步证明,融入思维链(chain of thought)推理使RT-2能够执行多阶段语义推理,例如判断应拾取哪个物体用作临时锤子(一块石头),或哪种饮料最适合疲惫的人(能量饮料)。
1. 引言
基于广泛网络规模数据集预训练的高容量模型,为各种下游任务提供了一个有效且强大的平台:大语言模型不仅能实现流畅的文本生成(Anil et al., 2023; Brohan et al., 2022; OpenAI, 2023),还能涌现出问题解决能力(Cobbe et al., 2021; Lewkowycz et al., 2022; Polu et al., 2022)以及散文(Brown et al., 2020; OpenAI, 2023)和代码(Chen et al., 2021)的创造性生成;而视觉-语言模型则实现了开放词汇的视觉识别(Kirillov et al., 2023; Minderer et al., 2022; Radford et al., 2021),甚至能对图像中的物体-智能体交互进行复杂推理(Alayrac et al., 2022; Chen et al., 2023a,b; Driess et al., 2023; Hao et al., 2022; Huang et al., 2023; Wang et al., 2022)。这种语义推理、问题解决和视觉解释能力对于必须在现实世界环境中执行各种任务的通用机器人来说将极其有用。然而,
通讯作者:chebotar@google.com, tianheyu@google.com, karolhausman@google.com © 2023 Google DeepMind。保留所有权利 arXiv:2307.15818v1 [cs.RO] 2023年7月28日
RT-2:视觉-语言-动作模型将网络知识迁移至机器人控制 问:图像中正在发生什么? 答:一头灰色的驴走在街上。 问:机器人应该做什么来完成任务? 平移 = [0.1, -0.2, 0] 旋转 = [10, 25, -7] 问:机器人应该做什么来完成任务? 答:… 用于机器人控制的视觉-语言-动作模型 RT-2 R = [10, 25, -7] Δ T = [0.1, -0.2, 0] Δ ViT 大型语言模型 机器人动作 问:我能用这些物体做什么? 答:烤一个蛋糕。 答:132 114 128 5 25 156 反标记化 网络规模的视觉问答 + 机器人动作数据 闭环机器人控制 答:311 423 170 55 244 答:3455 1144 189 25673 答:132 114 128 5 25 156 联合微调 部署 将草莓放入正确的碗中 捡起即将掉落的袋子 拾取不同的物体 图1 | RT-2概览:我们将机器人动作表示为另一种语言,可以将其转换为文本标记,并与网络规模的视觉-语言数据集一同训练。在推理过程中,文本标记被反标记化为机器人动作,从而实现闭环控制。这使我们能够利用视觉-语言模型的主干和预训练来学习机器人策略,将其泛化能力、语义理解和推理部分地迁移到机器人控制中。我们在项目网站 robotics-transformer2.github.io 上展示了RT-2的执行示例。
目前尚不清楚机器人应如何获得此类能力。虽然一种蛮力方法可能需要收集数百万次机器人交互试验,但最强大的语言和视觉-语言模型是在来自网络的数十亿标记和图像上训练的(Alayrac等人,2022;Chen等人,2023a,b;Huang等人,2023)——这个数量级在近期内不太可能被机器人数据所匹配。另一方面,直接将此类模型应用于机器人任务也很困难:此类模型对语义、标签和文本提示进行推理,而机器人需要基于底层的低级动作,例如笛卡尔末端执行器指令。尽管最近一些工作试图将语言模型(LLM)和视觉语言模型(VLM)融入机器人学(Ahn等人,2022;Driess等人,2023;Vemprala等人,2023),但此类方法通常只解决机器人规划的“高层”方面,本质上扮演状态机的角色,解释命令并将其解析为独立的基元(例如抓取和放置物体),然后由独立的低级控制器执行,而这些控制器本身在训练期间并未受益于网络规模模型丰富的语义知识。因此,在本文中我们提出:大型预训练的视觉-语言模型能否直接集成到低级机器人控制中,以提升泛化能力并实现涌现的语义推理?
为此,我们探索了一种既简单又出奇有效的方法:我们直接训练为开放词汇视觉问答和视觉对话设计的视觉-语言模型,使其输出低级机器人动作,同时解决其他网络规模的视觉-语言任务。虽然此类模型通常被训练用于生成自然语言标记,但我们可以通过将动作标记化为文本标记,并创建“多模态句子”(Driess等人,2023),来对机器人轨迹进行训练。这些句子通过产生相应的动作来“响应”与相机观测配对的机器人指令。通过这种方式,视觉-语言模型可以直接被训练为遵循指令的机器人策略。这种简单的方法与先前将VLM融入机器人策略(Shridhar等人,2022a)或从头设计新的视觉-语言-动作架构(Reed等人,2022)的替代方案形成对比:相反,我们训练已有的视觉-语言模型(其已分摊了巨大的计算投入),在不添加任何新参数的情况下输出文本编码的动作。我们将此类模型称为视觉-语言-动作(VLA)模型。
我们基于为RT-1提出的协议(Brohan等人,2022)实例化VLA模型,使用类似的数据集,但扩展模型以使用大型视觉-语言主干。因此,我们将我们的模型称为RT-2(Robotics Transformer 2)。图1提供了概览。
RT-2:视觉语言动作模型将网络知识迁移至机器人控制
我们观察到,基于此类视觉语言模型(Vision-Language Model)衍生的机器人策略展现出多种卓越能力,它将从机器人数据中学到的物理动作与从网络数据中学到的图像和文本理解能力融合于单一模型中。除了显著提升对新物体和语义多样化指令的泛化能力这一预期收益外,我们还观察到一系列涌现能力。虽然模型的物理技能仍局限于机器人数据中观察到的技能分布,但模型通过利用从网络获取的知识来解读图像和语言指令,获得了以新方式运用这些技能的能力。图2展示了一些示例亮点。模型能够重新利用从机器人数据中学到的抓取和放置技能,将物体放置到语义指示的位置(如特定数字或图标)附近,尽管机器人数据中并未包含这些线索。模型还能解读物体间的关系,以决定抓取哪个物体以及将其放置何处,尽管机器人演示中并未提供此类关系。此外,如果通过思维链(chain of thought)提示增强指令,模型能够进行更复杂的语义推理,例如判断哪个物体可临时用作锤子(一块石头),或者哪种饮料最适合疲倦的人(能量饮料)。
我们的主要贡献是RT-2,这是一个模型家族,通过对在网络规模数据上训练的大型视觉语言模型进行微调,使其直接作为可泛化且具备语义感知的机器人策略。我们的实验研究了参数量高达550亿的模型,这些模型在互联网数据以及先前工作(Brohan et al., 2022)中带指令标注的机器人轨迹上进行训练。通过超过6000次的机器人评估,我们证明RT-2在物体、场景和指令的泛化方面实现了显著改进,并展现出从网络规模视觉语言预训练中继承的广泛涌现能力。
2. 相关工作
视觉语言模型。 视觉语言模型(VLMs)有多个类别(Gan et al., 2022),其中两个最相关的是:(1) 表征学习模型,例如CLIP(Radford et al., 2021),它学习两种模态的通用嵌入;(2) 形式为 {视觉, 文本} → {文本} 的视觉语言模型,它们学习以视觉和语言作为输入,并生成自由形式的文本。这两类模型已被广泛用作下游应用的预训练,例如物体分类(Radford et al., 2021)、检测(Gu et al., 2021)和分割(Ghiasi et al., 2021)。在本工作中,我们聚焦于后一类模型(Alayrac et al., 2022; Chen et al., 2023a,b; Driess et al., 2023; Hao et al., 2022; Li et al., 2023, 2019; Lu et al., 2019)。这些模型通常在多种不同任务上同时训练,例如图像描述、视觉问答(VQA)以及基于多个数据集的通用语言任务。虽然先前工作研究了VLMs在包括机器人学在内的广泛问题和场景中的应用,但我们的重点在于如何通过赋予VLMs预测机器人动作的能力,将其能力扩展到机器人闭环控制,从而利用VLMs中已有的知识实现新水平的泛化。
机器人学习中的泛化。 开发能在各种场景中广泛成功的机器人控制器是机器人研究的一个长期目标(Kaelbling, 2020; Smith and Coles, 1973)。实现机器人操作泛化的一个有前景的方法是从大规模多样化数据集中学习(Dasari et al., 2019; Levine et al., 2018; Pinto and Gupta, 2016)。通过这种方式,先前的方法已经展示了机器人如何泛化到新的物体实例(Finn and Levine, 2017; Levine et al., 2018; Mahler et al., 2017; Pinto and Gupta, 2016; Young et al., 2021),泛化到涉及物体和技能新组合的任务(Dasari and Gupta, 2021; Finn et al., 2017; James et al., 2018; Jang et al., 2021; Yu et al., 2018),以及泛化到新目标或语言指令(Jang et al., 2021; Jiang et al., 2022; Liu et al., 2022; Mees et al., 2022; Nair et al., 2022a; Pong et al.,
RT-2:视觉-语言-动作模型将网络知识迁移至机器人控制 2019),到具有新颖语义物体类别的任务(Shridhar 等人,2021;Stone 等人,2023),再到未见过的环境(Cui 等人,2022;Du 等人,2023a;Hansen 等人,2020)。与大多数先前工作不同,我们的目标是开发并研究一个能够沿所有这些维度泛化到未见条件的单一模型。我们方法的一个关键要素是利用在比机器人所见数据广泛得多的数据上训练过的预训练模型。
机器人操作的预训练 预训练在机器人学习领域有悠久的历史。大多数工作侧重于预训练的视觉表征,这些表征可用于初始化机器人摄像头观测的编码器,其方式包括通过监督式 ImageNet 分类(Shah 和 Kumar,2021)、数据增强(Kostrikov 等人,2020;Laskin 等人,2020a,b;Pari 等人,2021)或专门针对机器人控制的目标(Karamcheti 等人,2023;Ma 等人,2022;Majumdar 等人,2023b;Nair 等人,2022b;Xiao 等人,2022b)。其他工作则整合了预训练的语言模型,通常用作指令编码器(Brohan 等人,2022;Hill 等人,2020;Jang 等人,2021;Jiang 等人,2022;Lynch 和 Sermanet,2020;Nair 等人,2022a;Shridhar 等人,2022b)或用于高层规划(Ahn 等人,2022;Driess 等人,2023;Huang 等人,2022;Mu 等人,2023;Singh 等人,2023;Wu 等人,2023)。我们并非使用预训练的视觉模型或预训练的语言模型,而是专门考虑使用预训练的视觉语言模型(VLM),它们提供了关于世界的丰富、接地气的知识。先前工作已研究了 VLM 在机器人领域的应用(Driess 等人,2023;Du 等人,2023b;Gadre 等人,2022;Karamcheti 等人,2023;Shah 等人,2023;Shridhar 等人,2021;Stone 等人,2023),并构成了本工作的部分灵感来源。这些先前方法将 VLM 用于视觉状态表征(Karamcheti 等人,2023)、识别物体(Gadre 等人,2022;Stone 等人,2023)、高层规划(Driess 等人,2023)或提供监督/成功检测(Du 等人,2023b;Ma 等人,2023;Sumers 等人,2023;Xiao 等人,2022a;Zhang 等人,2023)。虽然 CLIPort(Shridhar 等人,2021)和 MOO(Stone 等人,2023)将预训练的 VLM 整合到端到端的视觉运动操作策略中,但两者都在策略中引入了显著的结构,限制了其适用性。值得注意的是,我们的工作不依赖于受限的 2D 动作空间,也不需要校准的摄像头。此外,一个关键区别在于,与这些工作不同,我们利用的是能够生成语言的 VLM,并且我们公式的统一输出空间使得模型权重能够在语言和动作任务之间完全共享,而无需引入仅用于动作的模型层组件。
3. 视觉-语言-动作模型
本节介绍我们的模型系列以及训练 VLM 直接执行闭环机器人控制的设计选择。首先,我们描述模型的通用架构,以及如何从常用于视觉语言任务的模型推导出它们。接着,我们介绍将基于网络规模数据预训练的大型 VLM 微调以直接输出机器人动作(成为 VLA 模型)的方案与挑战。最后,我们描述如何使这些模型适用于机器人任务,解决模型大小和推理速度方面的挑战,以实现实时控制。
3.1. 预训练的视觉语言模型
我们在此工作中构建基础的视觉语言模型(Chen 等人,2023a;Driess 等人,2023)以一个或多个图像作为输入,并产生一个标记序列,该序列通常代表自然语言文本。此类模型能够执行广泛的视觉解释和推理任务,从推断图像的构成到回答关于单个物体及其与其他物体关系的问题(Alayrac 等人,2022;Chen 等人,2023a;Driess 等人,2023;Huang 等人,2023)。要表征执行如此广泛任务所需的知识,需要大型模型和网络规模的数据集。在本工作中,我们改造了两个先前提出的 VLM 作为 VLA 模型:PaLI-X(Chen 等人,2023a)和 PaLM-E(Driess 等人,2023)。我们将这些模型的视觉-语言-动作版本称为 RT-2-PaLI-X 和 RT-2-PaLM-E。我们利用了这些模型从数十亿到数百亿参数规模的不同实例。我们在附录 D 中提供了这两种模型架构的详细描述。
图 2 | RT-2 能够泛化到各种需要推理、符号理解和人类识别的现实世界情境。我们在第 4 节详细研究这些具有挑战性的场景。
3.2. 机器人动作微调
为了使视觉语言模型能够控制机器人,必须训练它们输出动作。我们对此问题采取直接的方法,将动作表示为模型输出中的标记,其处理方式与语言标记相同。我们的动作编码基于 Brohan 等人(2022)为 RT-1 模型提出的离散化方案。动作空间包括机器人末端执行器的 6 自由度位置和旋转位移,以及机器人夹爪的伸展程度和一个用于终止回合的特殊离散指令(策略应触发该指令以表示成功完成)。连续维度(除离散终止指令外的所有维度)被均匀离散化为 256 个区间。因此,机器人动作可以使用离散区间的序号表示为 8 个整数。为了使用这些离散化的动作将视觉语言模型微调为视觉-语言-动作模型,我们需要将模型现有标记化中的标记与离散动作区间关联起来。这需要
RT-2:视觉-语言-动作模型将网络知识迁移至机器人控制 保留256个词元作为动作词元。具体选择哪些词元取决于每个视觉语言模型(VLM)所使用的特定分词方式,我们将在本节稍后讨论。为了定义VLM微调的目标,我们将动作向量转换为单个字符串,方法是将每个维度的动作词元用空格字符简单拼接:"terminate Δ pos 𝑥 Δ pos 𝑦 Δ pos 𝑧 Δ rot 𝑥 Δ rot 𝑦 Δ rot 𝑧 gripper_extension"。此类目标的一个具体实例可能是:"1 128 91 241 5 101 127"。我们在实验中微调的两种VLM——PaLI-X(Chen等人,2023a)和PaLM-E(Driess等人,2023)——使用不同的分词方式。对于PaLI-X,1000以内的每个整数都有唯一的词元,因此我们直接将动作分箱与代表相应整数的词元关联起来。对于PaLM-E模型,它不提供这种便捷的数字表示,我们直接覆盖256个最不常用的词元来表示动作词汇表。值得注意的是,训练VLM用动作词元覆盖现有词元是一种符号调优(Wei等人,2023)形式,先前的研究已证明这对VLM效果良好。采用上述动作表示,我们将机器人数据转换为适合VLM模型微调的格式:输入包括机器人摄像头图像和文本任务描述(使用标准视觉问答格式"Q: what action should the robot take to [任务指令]? A:"),输出则格式化为代表机器人动作的一串数字/最不常用词元。
联合微调。正如我们将在实验中展示的,提升机器人性能的训练方案中的一个关键技术细节是联合微调机器人数据与原始网络数据,而非仅在机器人数据上进行简单微调。我们观察到,联合微调能产生更具泛化能力的策略,因为策略在微调过程中同时接触来自网络规模数据的抽象视觉概念和低层机器人动作,而不仅仅是机器人动作。在联合微调期间,我们通过增加机器人数据集的采样权重来平衡每个训练批次中机器人数据与网络数据的比例。
输出约束。RT-2与标准VLM的一个重要区别在于,RT-2需要输出有效的动作词元以在真实机器人上执行。因此,为确保RT-2在解码过程中输出有效的动作词元,我们通过仅在模型接收到机器人动作任务提示时采样有效动作词元来约束其输出词汇表,而对于标准视觉-语言任务,模型仍被允许输出全部自然语言词元。
3.3. 实时推理
现代VLM的参数量可达数百亿甚至上千亿(Chen等人,2023a;Driess等人,2023)。本工作中训练的最大模型使用了550亿参数。直接在用于实时机器人控制的标准桌面级机器或机载GPU上运行此类模型是不可行的。据我们所知,我们的模型是迄今为止用于直接闭环机器人控制的最大模型,规模超过以往模型一个数量级以上,因此需要一套新的解决方案来实现高效的实时推理。我们开发了一种协议,通过将RT-2模型部署在多TPU云服务中并通过网络查询该服务,从而在机器人上运行它们。借助此解决方案,我们可以实现合适的控制频率,并使用同一云服务为多个机器人提供服务。我们评估的最大模型——550亿参数的RT-2-PaLI-X-55B模型——可以以1-3 Hz的频率运行。该模型的较小版本,包含50亿参数,可以以约5 Hz的频率运行。
4. 实验
我们的实验聚焦于RT-2在现实世界中的泛化能力和涌现能力,旨在回答以下问题:
- RT-2在已见任务上表现如何,更重要的是,如何泛化到新物体、新背景和新环境?
- 我们能否观察并测量RT-2的任何涌现能力?
- 泛化能力如何随参数量和其他设计决策而变化?
- RT-2能否像视觉-语言模型一样展现出思维链推理的迹象?
我们在多种条件下使用约6000条评估轨迹来评估我们的方法和多个基线,具体将在后续章节描述。除非另有说明,我们使用一个7自由度移动机械臂,其动作空间如第3.2节所述。我们还在项目网站(robotics-transformer2.github.io)上展示了RT-2执行的示例。
我们训练了两种利用预训练VLM的RT-2具体实例:(1)RT-2-PaLI-X基于50亿和550亿参数的PaLI-X(Chen等人,2023a)构建;(2)RT-2-PaLM-E基于120亿参数的PaLM-E(Driess等人,2023)构建。对于训练,我们利用来自Chen等人(2023a)和Driess等人(2023)的原始网络规模数据,包括视觉问答、图像描述以及非结构化的图文交织示例。我们将其与Brohan等人(2022)的机器人演示数据结合,这些数据由13台机器人在办公室厨房环境中历时17个月收集。每条机器人演示轨迹都标注了描述所执行任务的自然语言指令,包括描述技能的动词(例如"pick"、"open"、"place into")和一个或多个描述被操作物体的名词(例如"7up can"、"drawer"、"napkin")(有关所用数据集的更多细节见附录B)。对于所有RT-2训练运行,我们采用原始PaLI-X(Chen等人,2023a)和PaLM-E(Driess等人,2023)论文中的超参数,包括学习率调度和正则化。更多训练细节见附录E。
基线。我们将我们的方法与多个最先进的基线进行比较,这些基线挑战了我们方法的不同方面。所有基线使用完全相同的机器人数据。为了与最先进的策略进行比较,我们使用RT-1(Brohan等人,2022),这是一个基于Transformer的3500万参数模型。为了与最先进的预训练表示进行比较,我们使用VC-1(Majumdar等人,2023a)和R3M(Nair等人,2022b),通过训练一个RT-1骨干网络以它们的表示为输入来实现策略。为了与其他利用VLM的架构进行比较,我们使用MOO(Stone等人,2023),它使用VLM创建语义地图的额外图像通道,然后输入到RT-1骨干网络中。更多信息见附录C。
4.1. RT-2在已见任务上表现如何,更重要的是,如何泛化到新物体、新背景和新环境?
为了评估分布内性能以及泛化能力,我们将RT-2-PaLI-X和RT-2-PaLM-E模型与前面章节列出的四个基线进行比较。对于已见任务类别,我们使用与RT-1(Brohan等人,2022)中相同的已见指令集,本次评估中包含超过200个任务:36个拾取物体任务、35个推倒物体任务、35个竖立放置物体任务、48个移动物体任务、18个开关各种抽屉任务以及36个从抽屉中取出和放入物体任务。然而,需要注意的是,这些"分布内"评估仍然会改变物体的摆放位置以及时间、机器人位置等因素,要求技能能够泛化到环境中现实的变化。
第8-9页
图3展示了泛化评估的示例,这些评估分为未见过的类别(物体、背景和环境),并进一步分为简单和困难案例。对于未见过的物体,困难案例包括更难抓握和更独特的物体(例如玩具)。对于未见过的背景,困难案例包括更多样的背景和新颖物体。最后,对于未见过的环境,困难案例对应一个视觉上更独特的、配有显示器和配件的办公桌环境,而较简单的环境是厨房水槽。这些评估包含超过280项任务,主要关注多种不同场景下的拾取和放置技能。未见类别对应的指令列表详见附录F.2。
图4 | RT-2的两种实例化版本以及基线模型在已见训练任务上的整体性能,以及衡量对新颖物体、新颖背景和新颖环境泛化能力的未见评估结果。附录表4详列了完整结果。
评估结果如图4和附录表4所示。在已见任务上,RT-2模型与RT-1的性能相近,其他基线的成功率较低。RT-2模型与基线之间的差异在各种泛化实验中最为明显,这表明视觉-语言-动作模型(VLA)的优势在于从其互联网规模的预训练数据中迁移更具泛化性的视觉和语义概念。在此,平均而言,RT-2的两种实例化版本表现相似,相对于次优的两个基线RT-1和MOO实现了约2倍的性能提升,并比其他基线高出约6倍。RT-2的PaLM-E版本似乎在更困难的泛化场景中表现优于RT-2-PaLI-X,而在较简单的场景中表现稍逊,导致平均性能相近。
开源Language-Table基准测试。 为了使用开源基线和环境提供一个额外的比较点,我们利用了Lynch等人(2022)的开源Language-Table仿真环境。我们共同微调了一个较小的PaLI 3B模型,针对Language-Table数据集执行包括领域内VQA任务在内的多个预测任务,并在仿真中评估所得策略。对于动作预测任务,我们将动作离散化并编码为“X Y”格式的文本,其中X和Y的取值范围为{-10, -9, ..., +9, +10},代表末端执行器的二维笛卡尔坐标增量设定点。由于其规模较小,所得模型能以与其他基线相似的速率(5 Hz)进行推理。该实验的结果如表1所示。我们观察到,与基线相比,使用我们的模型带来了显著的性能提升,这表明基于VLM的预训练与大型PaLI模型的表达能力相结合,在其他场景中也可能有益,在本例中即使用不同机器人的仿真环境。我们还在图5中展示了定性的真实世界分布外行为,演示了新颖的推动任务以及针对该环境中前所未见物体的目标定位。关于Language-Table实验的更多细节可在附录B和D中找到。
4.2. 我们能否观察和测量RT-2的任何涌现能力?
除了评估视觉-语言-动作模型的泛化能力外,我们还旨在评估此类模型通过从网络迁移知识,能够在机器人数据所展示能力之外实现新能力的程度。我们将此类能力称为涌现的,意指它们通过迁移互联网规模的预训练而涌现。我们不期望这种迁移能实现新的机器人动作,但我们确实期望语义和视觉概念(包括关系和名词)能够有效迁移,即使这些概念未在机器人数据中出现过。
定性评估。 首先,我们使用RT-2-PaLI-X模型进行实验,以确定从视觉-语言概念迁移而来的各种涌现能力。我们在图2中展示了此类交互的一些示例。通过探索,我们发现RT-2继承了场景上下文中的语义理解和基本推理方面的新颖能力。例如,完成“将草莓放入正确的碗中”这一任务,不仅需要细致理解草莓和碗是什么,还需要在场景上下文中进行推理,以知道草莓应与同类水果放在一起。对于“捡起即将从桌子上掉落的袋子”这一任务,RT-2展示了物理理解能力,以区分两个袋子并识别放置不稳的物体。在这些场景中测试的所有交互都从未在机器人数据中出现过,这指向了从视觉-语言数据迁移语义知识。
定量评估。 为了量化这些涌现能力,我们选取先前评估中表现最好的两个基线RT-1和VC-1,并将其与我们的两个模型RT-2-PaLI-X和RT-2-PaLM-E进行比较。为了减少实验方差,我们使用A/B测试框架(Fisher, 1936)评估所有方法,在该框架下,所有四个模型在完全相同的条件下依次进行评估。我们将RT-2的涌现能力分为三类,涵盖推理和语义理解的维度(每类示例见附录图8)。第一类我们称之为符号理解,它明确测试RT-2策略是否迁移了来自视觉-语言预训练、且未出现在任何机器人数据中的语义知识。此类别的示例指令是“将苹果移到3”或“将可乐罐推到心形上”。第二类我们称之为推理,它展示了将底层VLM的多个推理方面应用于控制任务的能力。这些任务需要视觉推理(“将苹果移到颜色相同的杯子里”)、数学运算(“将X移到二加一的和附近”)和多语言理解(“mueve la manzana al vaso verde”)。我们将最后一类称为人物识别任务,包括诸如“将可乐罐移到戴眼镜的人那里”等任务,以展示以人为中心的理解和识别能力。用于此评估的完整指令列表在附录F.2中指定。我们在图6a中展示了该实验的结果,所有数值结果见附录H.2。我们观察到,我们的VLA模型在所有类别上都显著优于基线,我们最好的RT-2-PaLI-X模型相对于次优基线(RT-1)实现了超过3倍的平均成功率。我们还注意到,虽然基于更大规模PaLI-X的模型在符号理解、推理和人物识别方面的平均表现更好,但基于较小规模PaLM-E的模型在涉及数学推理的任务上具有优势。我们将这一有趣的结果归因于PaLM-E使用的不同预训练混合数据,这使得其模型在数学计算方面比主要进行视觉预训练的PaLI-X能力更强。
RT-2:视觉-语言-动作模型将网络知识迁移至机器人控制 (a) RT-2与两个基线在各种涌现技能评估(图8)上的性能对比。 (b) RT-2-PaLI-X的消融实验,展示了参数量和训练策略对泛化能力的影响。
图6 | RT-2在(6a)涌现技能和(6b)规模与训练消融实验中的定量性能。附录表5和表6详述了完整的数值结果。
4.3. 泛化能力如何随参数量及其他设计决策变化?
在此比较中,我们使用RT-2-PaLI-X模型,因为其在模型规模方面具有灵活性(由于PaLM-E的特性,RT-2-PaLM-E仅限于特定规模的PaLM和ViT模型)。具体而言,我们比较了两种不同的模型规模(5B和55B)以及三种不同的训练方案:从头开始训练模型(不使用任何VLM预训练权重);仅使用机器人动作数据对预训练模型进行微调;以及协同微调(微调与协同训练),这是本文使用的主要方法,即同时使用原始VLM训练数据和机器人数据进行VLM微调。由于我们主要关注这些模型的泛化方面,因此在本系列实验中移除了已见任务的评估。消融实验的结果展示在图6b和附录表6中。
首先,我们观察到,即使对于5B模型,从头开始训练一个非常大的模型也会导致性能极差。基于此结果,我们决定跳过对更大的55B PaLI-X模型进行从头训练的评估。其次,我们注意到,对模型(无论其规模大小)进行协同微调,其泛化性能优于仅使用机器人数据进行微调。我们将此归因于在训练的微调部分保留原始数据,使得模型不会忘记在VLM训练期间学到的先前概念。最后,有些意料之中的是,我们注意到模型规模的增加会带来更好的泛化性能。
4.4. RT-2能否表现出类似视觉语言模型的思维链推理迹象?
受LLM中思维链提示方法(Wei等人,2022)的启发,我们对RT-2的PaLM-E变体进行了仅数百个梯度步的微调,以增强其联合利用语言和动作的能力,希望它能引发更复杂的推理行为。我们对数据进行了增强,增加了一个额外的“计划”步骤,该步骤首先用自然语言描述机器人即将执行动作的目的,然后才是实际的动作令牌,例如:“指令:我饿了。计划:拿起rxbar巧克力。动作:1 128 124 136 121 158 111 255。”这种数据增强方案充当了VQA数据集(视觉推理)和操作数据集(生成动作)之间的桥梁。
我们定性观察到,具备思维链推理能力的RT-2能够响应更复杂的指令,因为它首先获得了一个用自然语言规划其动作的空间。这是一个有前景的方向,提供了初步证据,表明将LLM或VLM用作规划器(Ahn等人,2022;Driess等人,2023)可以与低级策略结合在单个VLA模型中。具备思维链推理能力的RT-2的运行示例如图7和附录I所示。
RT-2:视觉-语言-动作模型将网络知识迁移至机器人控制 提示:给定 <img> 我需要钉钉子,场景中什么物体可能有用?预测:石头。动作:1 129 138 122 132 135 106 127 提示:给定 <img> 指令:将绿色物体移到一起。预测:计划:将绿色罐子移到绿色米饼袋附近。动作:1 130 129 121 131 127 128 127 提示:给定 <img> 指令:拿起与其他所有物体都不同的物体。预测:计划:拿起rxbar巧克力。动作:1 128 129 125 131 125 128 127 提示:给定 <img> 指令:将所有物体移到一起。预测:计划:将绿色罐子移到绿色米饼袋附近。动作:1 128 126 127 135 123 119 127 提示:给定 <img> 指令:给我拿杯饮料。预测:计划:拿起7up罐子。动作:1 143 129 123 145 114 115 127
图7 | 具备思维链推理能力的RT-2的运行示例,其中RT-2同时生成计划和动作。
5. 局限性
尽管RT-2展现出有前景的泛化特性,但该方法仍存在多重局限性。首先,虽然我们证明了通过VLM引入网络规模的预训练能提升对语义和视觉概念的泛化能力,但机器人并未因引入这种额外经验而获得执行新动作的能力。模型的物理技能仍然局限于机器人数据中观察到的技能分布(见附录G),但它学会了以新的方式部署这些技能。我们认为这是由于数据集在技能维度上不够多样化所致。未来工作的一个令人兴奋的方向是研究如何通过新的数据收集范式(例如人类视频)来获取新技能。
其次,虽然我们展示了可以实时运行大型VLA模型,但这些模型的计算成本很高,并且当这些方法应用于需要高频控制的场景时,实时推理可能成为主要瓶颈。未来研究的一个激动人心的方向是探索量化和蒸馏技术,以使此类模型能够在更高频率或更低成本的硬件上运行。这也与当前的另一个局限性相关,即可用于创建RT-2的通用VLM模型数量很少。我们希望未来能有更多开源模型可用(例如 https://llava-vl.github.io/),并且专有模型能开放其微调API,这是构建VLA模型的充分条件。
6. 结论
在本文中,我们描述了如何通过将视觉语言模型预训练与机器人数据相结合来训练视觉-语言-动作模型。随后,我们提出了基于PaLM-E和PaLI-X的两种VLA实例,分别称为RT-2-PaLM-E和RT-2-PaLI-X。这些模型使用机器人轨迹数据进行协同微调,以输出表示为文本令牌的机器人动作。我们证明了我们的方法能产生性能卓越的机器人策略,更重要的是,它能带来显著更好的泛化性能以及从网络规模视觉语言预训练中继承的涌现能力。我们相信,这种简单而通用的方法展示了机器人技术直接受益于更好的视觉语言模型的前景,这将机器人学习领域置于一个战略位置,能够随着其他领域的进步而进一步提升。
致谢
我们要感谢Fred Alcober, Jodi Lynn Andres, Carolina Parada, Joseph Dabis, Rochelle Dela Cruz, Jessica Gomez, Gavin Gonzalez, John Guilyard, Tomas Jackson, Jie Tan, Scott Lehrer, Dee M, Utsav Malla, Sarah Nguyen, Jane Park, Emily Perez, Elio Prado, Jornell Quiambao, Clayton Tan, Jodexty Therlonge, Eleanor Tomlinson, Wenxuan Zhou以及整个Google DeepMind团队提供的反馈和贡献。
第13-14页
RT-2:视觉-语言-动作模型将网络知识迁移至机器人控制
参考文献
M. Ahn, A. Brohan, N. Brown, Y. Chebotar, O. Cortes, B. David, C. Finn, K. Gopalakrishnan, K. Hausman, A. Herzog, 等. Do as I can, not as I say: Grounding language in robotic affordances. arXiv preprint arXiv:2204.01691, 2022.
J.-B. Alayrac, J. Donahue, P. Luc, A. Miech, I. Barr, Y. Hasson, K. Lenc, A. Mensch, K. Millican, M. Reynolds, 等. Flamingo: a visual language model for few-shot learning. arXiv preprint arXiv:2204.14198, 2022.
R. Anil, A. M. Dai, O. Firat, M. Johnson, D. Lepikhin, A. Passos, S. Shakeri, E. Taropa, P. Bailey, Z. Chen, 等. Palm 2 technical report. arXiv preprint arXiv:2305.10403, 2023.
A. Brohan, N. Brown, J. Carbajal, Y. Chebotar, J. Dabis, C. Finn, K. Gopalakrishnan, K. Hausman, A. Herzog, J. Hsu, 等. Rt-1: Robotics transformer for real-world control at scale. arXiv preprint arXiv:2212.06817, 2022.
T. Brown, B. Mann, N. Ryder, M. Subbiah, J. D. Kaplan, P. Dhariwal, A. Neelakantan, P. Shyam, G. Sastry, A. Askell, 等. Language models are few-shot learners. Advances in neural information processing systems, 33:1877–1901, 2020.
D. Cer, Y. Yang, S. Kong, N. Hua, N. Limtiaco, R. S. John, N. Constant, M. Guajardo-Cespedes, S. Yuan, C. Tar, Y. Sung, B. Strope, and R. Kurzweil. Universal sentence encoder. CoRR, abs/1803.11175, 2018. URL http://arxiv.org/abs/1803.11175.
M. Chen, J. Tworek, H. Jun, Q. Yuan, H. P. d. O. Pinto, J. Kaplan, H. Edwards, Y. Burda, N. Joseph, G. Brockman, 等. Evaluating large language models trained on code. arXiv preprint arXiv:2107.03374, 2021.
X. Chen, J. Djolonga, P. Padlewski, B. Mustafa, S. Changpinyo, J. Wu, C. R. Ruiz, S. Goodman, X. Wang, Y. Tay, S. Shakeri, M. Dehghani, D. Salz, M. Lucic, M. Tschannen, A. Nagrani, H. Hu, M. Joshi, B. Pang, C. Montgomery, P. Pietrzyk, M. Ritter, A. Piergiovanni, M. Minderer, F. Pavetic, A. Waters, G. Li, I. Alabdulmohsin, L. Beyer, J. Amelot, K. Lee, A. P. Steiner, Y. Li, D. Keysers, A. Arnab, Y. Xu, K. Rong, A. Kolesnikov, M. Seyedhosseini, A. Angelova, X. Zhai, N. Houlsby, and R. Soricut. Pali-x: On scaling up a multilingual vision and language model, 2023a.
X. Chen, X. Wang, S. Changpinyo, A. Piergiovanni, P. Padlewski, D. Salz, S. Goodman, A. Grycner, B. Mustafa, L. Beyer, A. Kolesnikov, J. Puigcerver, N. Ding, K. Rong, H. Akbari, G. Mishra, L. Xue, A. Thapliyal, J. Bradbury, W. Kuo, M. Seyedhosseini, C. Jia, B. K. Ayan, C. Riquelme, A. Steiner, A. Angelova, X. Zhai, N. Houlsby, and R. Soricut. Pali: A jointly-scaled multilingual language-image model, 2023b.
K. Cobbe, V. Kosaraju, M. Bavarian, M. Chen, H. Jun, L. Kaiser, M. Plappert, J. Tworek, J. Hilton, R. Nakano, 等. Training verifiers to solve math word problems. arXiv preprint arXiv:2110.14168, 2021.
Z. J. Cui, Y. Wang, N. Muhammad, L. Pinto, 等. From play to policy: Conditional behavior generation from uncurated robot data. arXiv preprint arXiv:2210.10047, 2022.
S. Dasari and A. Gupta. Transformers for one-shot visual imitation. In Conference on Robot Learning, pages 2071–2084. PMLR, 2021.
S. Dasari, F. Ebert, S. Tian, S. Nair, B. Bucher, K. Schmeckpeper, S. Singh, S. Levine, and C. Finn. Robonet: Large-scale multi-robot learning. In Conference on Robot Learning, 2019.
RT-2:视觉-语言-动作模型将网络知识迁移至机器人控制
M. Dehghani, J. Djolonga, B. Mustafa, P. Padlewski, J. Heek, J. Gilmer, A. Steiner, M. Caron, R. Geirhos, I. Alabdulmohsin, R. Jenatton, L. Beyer, M. Tschannen, A. Arnab, X. Wang, C. Riquelme, M. Minderer, J. Puigcerver, U. Evci, M. Kumar, S. van Steenkiste, G. F. Elsayed, A. Mahendran, F. Yu, A. Oliver, F. Huot, J. Bastings, M. P. Collier, A. Gritsenko, V. Birodkar, C. Vasconcelos, Y. Tay, T. Mensink, A. Kolesnikov, F. Pavetić, D. Tran, T. Kipf, M. Lučić, X. Zhai, D. Keysers, J. Harmsen, and N. Houlsby. Scaling vision transformers to 22 billion parameters, 2023.
D. Driess, F. Xia, M. S. Sajjadi, C. Lynch, A. Chowdhery, B. Ichter, A. Wahid, J. Tompson, Q. Vuong, T. Yu, 等. Palm-e: An embodied multimodal language model. arXiv preprint arXiv:2303.03378, 2023.
M. Du, S. Nair, D. Sadigh, and C. Finn. Behavior retrieval: Few-shot imitation learning by querying unlabeled datasets. arXiv preprint arXiv:2304.08742, 2023a.
Y. Du, K. Konyushkova, M. Denil, A. Raju, J. Landon, F. Hill, N. de Freitas, and S. Cabi. Vision-language models as success detectors. arXiv preprint arXiv:2303.07280, 2023b.
C. Finn and S. Levine. Deep visual foresight for planning robot motion. In 2017 IEEE International Conference on Robotics and Automation (ICRA), pages 2786–2793. IEEE, 2017.
C. Finn, T. Yu, T. Zhang, P. Abbeel, and S. Levine. One-shot visual imitation learning via meta-learning. In Conference on robot learning, pages 357–368. PMLR, 2017.
R. A. Fisher. Design of experiments. British Medical Journal, 1(3923):554, 1936.
S. Y. Gadre, M. Wortsman, G. Ilharco, L. Schmidt, and S. Song. Clip on wheels: Zero-shot object navigation as object localization and exploration. arXiv preprint arXiv:2203.10421, 2022.
Z. Gan, L. Li, C. Li, L. Wang, Z. Liu, J. Gao, 等. Vision-language pre-training: Basics, recent advances, and future trends. Foundations and Trends ® in Computer Graphics and Vision, 14(3–4):163–352, 2022.
G. Ghiasi, X. Gu, Y. Cui, and T.-Y. Lin. Open-vocabulary image segmentation. arXiv preprint arXiv:2112.12143, 2021.
K. Grauman, A. Westbury, E. Byrne, Z. Chavis, A. Furnari, R. Girdhar, J. Hamburger, H. Jiang, M. Liu, X. Liu, M. Martin, T. Nagarajan, I. Radosavovic, S. K. Ramakrishnan, F. Ryan, J. Sharma, M. Wray, M. Xu, E. Z. Xu, C. Zhao, S. Bansal, D. Batra, V. Cartillier, S. Crane, T. Do, M. Doulaty, A. Erapalli, C. Feichtenhofer, A. Fragomeni, Q. Fu, A. Gebreselasie, C. Gonzalez, J. Hillis, X. Huang, Y. Huang, W. Jia, W. Khoo, J. Kolar, S. Kottur, A. Kumar, F. Landini, C. Li, Y. Li, Z. Li, K. Mangalam, R. Modhugu, J. Munro, T. Murrell, T. Nishiyasu, W. Price, P. R. Puentes, M. Ramazanova, L. Sari, K. Somasundaram, A. Southerland, Y. Sugano, R. Tao, M. Vo, Y. Wang, X. Wu, T. Yagi, Z. Zhao, Y. Zhu, P. Arbelaez, D. Crandall, D. Damen, G. M. Farinella, C. Fuegen, B. Ghanem, V. K. Ithapu, C. V. Jawahar, H. Joo, K. Kitani, H. Li, R. Newcombe, A. Oliva, H. S. Park, J. M. Rehg, Y. Sato, J. Shi, M. Z. Shou, A. Torralba, L. Torresani, M. Yan, and J. Malik. Ego4d: Around the world in 3,000 hours of egocentric video, 2022.
X. Gu, T.-Y. Lin, W. Kuo, and Y. Cui. Open-vocabulary object detection via vision and language knowledge distillation. arXiv preprint arXiv:2104.13921, 2021.
N. Hansen, R. Jangir, Y. Sun, G. Alenyà, P. Abbeel, A. A. Efros, L. Pinto, and X. Wang. Self-supervised policy adaptation during deployment. arXiv preprint arXiv:2007.04309, 2020.
Y. Hao, H. Song, L. Dong, S. Huang, Z. Chi, W. Wang, S. Ma, and F. Wei. Language models are general-purpose interfaces. arXiv preprint arXiv:2206.06336, 2022.
RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control F. Hill, S. Mokra, N. Wong, and T. Harley. Human instruction-following with deep reinforcement learning via transfer-learning from text. arXiv preprint arXiv:2005.09382 , 2020. S. Huang, L. Dong, W. Wang, Y. Hao, S. Singhal, S. Ma, T. Lv, L. Cui, O. K. Mohammed, Q. Liu, et al. Language is not all you need: Aligning perception with language models. arXiv preprint arXiv:2302.14045 , 2023. W. Huang, P. Abbeel, D. Pathak, and I. Mordatch. Language models as zero-shot planners: Extracting actionable knowledge for embodied agents. In International Conference on Machine Learning , pages 9118–9147. PMLR, 2022. S. James, M. Bloesch, and A. J. Davison. Task-embedded control networks for few-shot imitation learning. In Conference on robot learning , pages 783–795. PMLR, 2018. E. Jang, A. Irpan, M. Khansari, D. Kappler, F. Ebert, C. Lynch, S. Levine, and C. Finn. Bc-z: Zero- shot task generalization with robotic imitation learning. In Conference on Robot Learning , pages 991–1002. PMLR, 2021. Y. Jiang, A. Gupta, Z. Zhang, G. Wang, Y. Dou, Y. Chen, L. Fei-Fei, A. Anandkumar, Y. Zhu, and L. Fan. Vima: General robot manipulation with multimodal prompts. arXiv preprint arXiv:2210.03094 , 2022. L. P. Kaelbling. The foundation of efficient robot learning. Science , 369(6506):915–916, 2020. S. Karamcheti, S. Nair, A. S. Chen, T. Kollar, C. Finn, D. Sadigh, and P. Liang. Language-driven representation learning for robotics. arXiv preprint arXiv:2302.12766 , 2023. A. Kirillov, E. Mintun, N. Ravi, H. Mao, C. Rolland, L. Gustafson, T. Xiao, S. Whitehead, A. C. Berg, W.-Y. Lo, et al. Segment anything. arXiv preprint arXiv:2304.02643 , 2023. I. Kostrikov, D. Yarats, and R. Fergus. Image augmentation is all you need: Regularizing deep reinforcement learning from pixels. arXiv preprint arXiv:2004.13649 , 2020. M. Laskin, K. Lee, A. Stooke, L. Pinto, P. Abbeel, and A. Srinivas. Reinforcement learning with augmented data. Advances in neural information processing systems , 33:19884–19895, 2020a. M. Laskin, A. Srinivas, and P. Abbeel. Curl: Contrastive unsupervised representations for reinforcement learning. In International Conference on Machine Learning , pages 5639–5650. PMLR, 2020b. S. Levine, P. Pastor, A. Krizhevsky, J. Ibarz, and D. Quillen. Learning hand-eye coordination for robotic grasping with deep learning and large-scale data collection. The International journal of robotics research , 37(4-5):421–436, 2018. A. Lewkowycz, A. Andreassen, D. Dohan, E. Dyer, H. Michalewski, V. Ramasesh, A. Slone, C. Anil, I. Schlag, T. Gutman-Solo, et al. Solving quantitative reasoning problems with language models. arXiv preprint arXiv:2206.14858 , 2022. J. Li, D. Li, S. Savarese, and S. Hoi. Blip-2: Bootstrapping language-image pre-training with frozen image encoders and large language models. arXiv preprint arXiv:2301.12597 , 2023. L. H. Li, M. Yatskar, D. Yin, C.-J. Hsieh, and K.-W. Chang. Visualbert: A simple and performant baseline for vision and language. arXiv preprint arXiv:1908.03557 , 2019. H. Liu, L. Lee, K. Lee, and P. Abbeel. Instruction-following agents with jointly pre-trained vision- language models. arXiv preprint arXiv:2210.13431 , 2022. 15
RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control J. Lu, D. Batra, D. Parikh, and S. Lee. Vilbert: Pretraining task-agnostic visiolinguistic representations for vision-and-language tasks. Advances in neural information processing systems , 32, 2019. C. Lynch and P. Sermanet. Language conditioned imitation learning over unstructured data. arXiv preprint arXiv:2005.07648 , 2020. C. Lynch, A. Wahid, J. Tompson, T. Ding, J. Betker, R. Baruch, T. Armstrong, and P. Florence. Interactive language: Talking to robots in real time. arXiv preprint arXiv:2210.06407 , 2022. Y. J. Ma, S. Sodhani, D. Jayaraman, O. Bastani, V. Kumar, and A. Zhang. Vip: Towards universal visual reward and representation via value-implicit pre-training. arXiv preprint arXiv:2210.00030 , 2022. Y. J. Ma, W. Liang, V. Som, V. Kumar, A. Zhang, O. Bastani, and D. Jayaraman. Liv: Language-image representations and rewards for robotic control. arXiv preprint arXiv:2306.00958 , 2023. J. Mahler, J. Liang, S. Niyaz, M. Laskey, R. Doan, X. Liu, J. A. Ojea, and K. Goldberg. Dex-net 2.0: Deep learning to plan robust grasps with synthetic point clouds and analytic grasp metrics. arXiv preprint arXiv:1703.09312 , 2017. A. Majumdar, K. Yadav, S. Arnaud, Y. J. Ma, C. Chen, S. Silwal, A. Jain, V.-P. Berges, P. Abbeel, J. Malik, et al. Where are we in the search for an artificial visual cortex for embodied intelligence? arXiv preprint arXiv:2303.18240 , 2023a. A. Majumdar, K. Yadav, S. Arnaud, Y. J. Ma, C. Chen, S. Silwal, A. Jain, V.-P. Berges, P. Abbeel, J. Malik, et al. Where are we in the search for an artificial visual cortex for embodied intelligence? arXiv preprint arXiv:2303.18240 , 2023b. O. Mees, L. Hermann, and W. Burgard. What matters in language conditioned robotic imitation learning over unstructured data. IEEE Robotics and Automation Letters , 7(4):11205–11212, 2022. M. Minderer, A. Gritsenko, A. Stone, M. Neumann, D. Weissenborn, A. Dosovitskiy, A. Mahendran, A. Arnab, M. Dehghani, Z. Shen, et al. Simple open-vocabulary object detection with vision transformers. arXiv preprint arXiv:2205.06230 , 2022. Y. Mu, Q. Zhang, M. Hu, W. Wang, M. Ding, J. Jin, B. Wang, J. Dai, Y. Qiao, and P. Luo. Embodiedgpt: Vision-language pre-training via embodied chain of thought. arXiv preprint arXiv:2305.15021 , 2023. S. Nair, E. Mitchell, K. Chen, S. Savarese, C. Finn, et al. Learning language-conditioned robot behavior from offline data and crowd-sourced annotation. In Conference on Robot Learning , pages 1303–1315. PMLR, 2022a. S. Nair, A. Rajeswaran, V. Kumar, C. Finn, and A. Gupta. R3m: A universal visual representation for robot manipulation. arXiv preprint arXiv:2203.12601 , 2022b. OpenAI. Gpt-4 technical report, 2023. J. Pari, N. M. Shafiullah, S. P. Arunachalam, and L. Pinto. The surprising effectiveness of representation learning for visual imitation. arXiv preprint arXiv:2112.01511 , 2021. L. Pinto and A. Gupta. Supersizing self-supervision: Learning to grasp from 50k tries and 700 robot hours. In 2016 IEEE international conference on robotics and automation (ICRA) , pages 3406–3413. IEEE, 2016. S. Polu, J. M. Han, K. Zheng, M. Baksys, I. Babuschkin, and I. Sutskever. Formal mathematics statement curriculum learning. arXiv preprint arXiv:2202.01344 , 2022. 16
RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control V. H. Pong, M. Dalal, S. Lin, A. Nair, S. Bahl, 和 S. Levine. Skew-fit: State-covering self-supervised reinforcement learning. arXiv 预印本 arXiv:1903.03698, 2019. A. Radford, J. W. Kim, C. Hallacy, A. Ramesh, G. Goh, S. Agarwal, G. Sastry, A. Askell, P. Mishkin, J. Clark, 等. Learning transferable visual models from natural language supervision. 载于 International Conference on Machine Learning, 第8748–8763页. PMLR, 2021. S. Reed, K. Zolna, E. Parisotto, S. G. Colmenarejo, A. Novikov, G. Barth-Maron, M. Gimenez, Y. Sulsky, J. Kay, J. T. Springenberg, 等. A generalist agent. arXiv 预印本 arXiv:2205.06175, 2022. M. Ryoo, A. Piergiovanni, A. Arnab, M. Dehghani, 和 A. Angelova. Tokenlearner: Adaptive space-time tokenization for videos. Advances in Neural Information Processing Systems, 34:12786–12797, 2021. D. Shah, B. Osiński, b. ichter, 和 S. Levine. Lm-nav: Robotic navigation with large pre-trained models of language, vision, and action. 载于 K. Liu, D. Kulic, 和 J. Ichnowski 编辑, Proceedings of The 6th Conference on Robot Learning, 卷 205 of Proceedings of Machine Learning Research, 第492–504页. PMLR, 2023年12月14–18日. URL https://proceedings.mlr.press/v205/shah23b.html. R. Shah 和 V. Kumar. Rrl: Resnet as representation for reinforcement learning. arXiv 预印本 arXiv:2107.03380, 2021. M. Shridhar, L. Manuelli, 和 D. Fox. Cliport: What and where pathways for robotic manipulation. 载于 Proceedings of the 5th Conference on Robot Learning (CoRL), 2021. M. Shridhar, L. Manuelli, 和 D. Fox. Cliport: What and where pathways for robotic manipulation. 载于 Conference on Robot Learning, 第894–906页. PMLR, 2022a. M. Shridhar, L. Manuelli, 和 D. Fox. Perceiver-actor: A multi-task transformer for robotic manipulation. arXiv 预印本 arXiv:2209.05451, 2022b. I. Singh, V. Blukis, A. Mousavian, A. Goyal, D. Xu, J. Tremblay, D. Fox, J. Thomason, 和 A. Garg. Progprompt: Generating situated robot task plans using large language models. 载于 ICRA, 2023. M. H. Smith 和 L. S. Coles. Design of a low cost, general purpose robot. 载于 IJCAI, 第324–336页, 1973. A. Stone, T. Xiao, Y. Lu, K. Gopalakrishnan, K.-H. Lee, Q. Vuong, P. Wohlhart, B. Zitkovich, F. Xia, C. Finn, 等. Open-world object manipulation using pre-trained vision-language models. arXiv 预印本 arXiv:2303.00905, 2023. T. Sumers, K. Marino, A. Ahuja, R. Fergus, 和 I. Dasgupta. Distilling internet-scale vision-language models into embodied agents. arXiv 预印本 arXiv:2301.12507, 2023. Y. Tay, M. Dehghani, V. Q. Tran, X. Garcia, J. Wei, X. Wang, H. W. Chung, S. Shakeri, D. Bahri, T. Schuster, H. S. Zheng, D. Zhou, N. Houlsby, 和 D. Metzler. Ul2: Unifying language learning paradigms, 2023. S. Vemprala, R. Bonatti, A. Bucker, 和 A. Kapoor. Chatgpt for robotics: Design principles and model abilities. Microsoft Auton. Syst. Robot. Res, 2:20, 2023. J. Wang, Z. Yang, X. Hu, L. Li, K. Lin, Z. Gan, Z. Liu, C. Liu, 和 L. Wang. Git: A generative image-to-text transformer for vision and language. arXiv 预印本 arXiv:2205.14100, 2022. J. Wei, X. Wang, D. Schuurmans, M. Bosma, E. Chi, Q. Le, 和 D. Zhou. Chain of thought prompting elicits reasoning in large language models. arXiv 预印本 arXiv:2201.11903, 2022. 17
RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control J. Wei, L. Hou, A. Lampinen, X. Chen, D. Huang, Y. Tay, X. Chen, Y. Lu, D. Zhou, T. Ma, 和 Q. V. Le. Symbol tuning improves in-context learning in language models, 2023. J. Wu, R. Antonova, A. Kan, M. Lepert, A. Zeng, S. Song, J. Bohg, S. Rusinkiewicz, 和 T. Funkhouser. Tidybot: Personalized robot assistance with large language models. arXiv 预印本 arXiv:2305.05658, 2023. T. Xiao, H. Chan, P. Sermanet, A. Wahid, A. Brohan, K. Hausman, S. Levine, 和 J. Tompson. Robotic skill acquisition via instruction augmentation with vision-language models. arXiv 预印本 arXiv:2211.11736, 2022a. T. Xiao, I. Radosavovic, T. Darrell, 和 J. Malik. Masked visual pre-training for motor control. arXiv 预印本 arXiv:2203.06173, 2022b. S. Young, D. Gandhi, S. Tulsiani, A. Gupta, P. Abbeel, 和 L. Pinto. Visual imitation made easy. 载于 Conference on Robot Learning, 第1992–2005页. PMLR, 2021. K.-T. Yu, M. Bauza, N. Fazeli, 和 A. Rodriguez. More than a million ways to be pushed. a high-fidelity experimental dataset of planar pushing. 载于 2016 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS), 第30–37页. IEEE, 2016. T. Yu, C. Finn, A. Xie, S. Dasari, T. Zhang, P. Abbeel, 和 S. Levine. One-shot imitation from observing humans via domain-adaptive meta-learning. arXiv 预印本 arXiv:1802.01557, 2018. X. Zhai, A. Kolesnikov, N. Houlsby, 和 L. Beyer. Scaling vision transformers. 载于 Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 第12104–12113页, 2022. X. Zhang, Y. Ding, S. Amiri, H. Yang, A. Kaminski, C. Esselink, 和 S. Zhang. Grounding classical task planners via vision-language models. arXiv 预印本 arXiv:2304.08587, 2023. 18
RT-2:视觉-语言-动作模型将网络知识迁移至机器人控制
A. 贡献
- 训练与评估(设计并执行模型训练流程,在仿真和真实世界中评估模型,为算法设计选择运行消融实验):Yevgen Chebotar, Krzysztof Choromanski, Tianli Ding, Danny Driess, Avinava Dubey, Pete Florence, Chuyuan Fu, Montse Gonzalez Arenas, Keerthana Gopalakrishnan, Kehang Han, Alexander Herzog, Brian Ichter, Alex Irpan, Isabel Leal, Lisa Lee, Yao Lu, Henryk Michalewski, Igor Mordatch, Karl Pertsch, Michael Ryoo, Anikait Singh, Quan Vuong, Ayzaan Wahid, Paul Wohlhart, Fei Xia, Ted Xiao, and Tianhe Yu.
- 网络架构(设计并实现模型网络模块,研究动作的token化,在实验期间启用模型网络推理):Yevgen Chebotar, Xi Chen, Krzysztof Choromanski, Danny Driess, Pete Florence, Keerthana Gopalakrishnan, Kehang Han, Karol Hausman, Brian Ichter, Alex Irpan, Isabel Leal, Lisa Lee, Henryk Michalewski, Igor Mordatch, Kanishka Rao, Michael Ryoo, Anikait Singh, Quan Vuong, Ayzaan Wahid, Jialin Wu, Fei Xia, Ted Xiao, and Tianhe Yu.
- 数据收集(在真实机器人上收集数据,运行真实机器人评估,执行运行真实机器人所需的操作):Noah Brown, Justice Carbajal, Tianli Ding, Krista Reymann, Grecia Salazar, Pierre Sermanet, Jaspiar Singh, Huong Tran, Stefan Welker, and Sichun Xu.
- 领导工作(领导项目工作,管理项目人员,为项目方向提供建议):Yevgen Chebotar, Chelsea Finn, Karol Hausman, Brian Ichter, Sergey Levine, Yao Lu, Igor Mordatch, Kanishka Rao, Pannag Sanketi, Radu Soricut, Vincent Vanhoucke, and Tianhe Yu.
- 论文撰写(撰写论文稿件,设计论文可视化内容与图表):Yevgen Chebotar, Danny Driess, Chelsea Finn, Pete Florence, Karol Hausman, Brian Ichter, Lisa Lee, Sergey Levine, Igor Mordatch, Karl Pertsch, Quan Vuong, Fei Xia, Ted Xiao, and Tianhe Yu.
- 基础设施(开发训练模型、运行实验、存储和访问数据所需的基础设施与代码库骨干):Anthony Brohan, Yevgen Chebotar, Danny Driess, Kehang Han, Jasmine Hsu, Brian Ichter, Alex Irpan, Nikhil Joshi, Ryan Julian, Dmitry Kalashnikov, Yuheng Kuang, Isabel Leal, Lisa Lee, Tsang-Wei Edward Lee, Yao Lu, Igor Mordatch, Quan Vuong, Ayzaan Wahid, Fei Xia, Ted Xiao, Peng Xu, and Tianhe Yu.
B. 数据集 视觉-语言数据集基于 Chen 等人 (2023b) 和 Driess 等人 (2023) 的数据集混合。其中大部分数据来自 WebLI 数据集,该数据集包含约 100 亿个跨 109 种语言的图像-文本对,经过筛选保留跨模态相似度得分最高的前 10% 样本,得到 10 亿个训练样本。此外还包含许多其他图像描述和视觉问答数据集,关于数据集混合的更多信息可参考 Chen 等人 (2023b)(针对 RT-2-PaLI-X)和 Driess 等人 (2023)(针对 RT-2-PaLM-E)。在对 RT-2-PaLI-X 进行协同微调时,我们未使用 Chen 等人 (2023a) 描述的 Episodic WebLI 数据集。
机器人数据集基于 Brohan 等人 (2022) 的数据集。该数据集包含使用移动操作机器人收集的演示片段。每个演示都标注了来自七项技能之一的自然语言指令:“拾取物体”、“将物体移动到物体附近”、“将物体竖直放置”、“推倒物体”、“打开抽屉”、“关闭抽屉”、“将物体放入容器”,以及“从容器中取出物体并放在台面上”。更多细节见 Brohan 等人 (2022)。
在协同微调的训练混合中,RT-2-PaLI-X 对机器人数据集进行加权,使其占比约 50%。RT-2-PaLM-E 对机器人数据集进行加权,使其占比约 66%。
对于表1中 Language-Table 的结果,我们的模型在 Lynch 等人 (2022) 的 Language-Table 数据集上进行训练。我们的模型在多个预测任务上进行了协同微调:(1) 给定两个连续图像帧和一条文本指令,预测动作;(2) 给定图像帧,预测指令;(3) 给定图像帧,预测机器人手臂位置;(4) 预测给定图像帧之间的时间步数;(5) 给定图像帧和指令,预测任务是否成功。
C. 基线方法 我们将我们的方法与多个挑战我们方法不同方面的先进基线方法进行比较。所有基线方法使用完全相同的机器人数据。
- RT-1:Robotics Transformer 1 Brohan 等人 (2022) 是一个基于Transformer的模型,在发布时在类似的任务集上达到了先进性能。该模型未使用基于VLM的预训练,因此它提供了一个重要的数据点,用于证明基于VLM的预训练是否重要。
- VC-1:VC-1 Majumdar 等人 (2023a) 是一个视觉基础模型,使用专门为机器人任务设计的预训练视觉表示。我们使用 VC-1 ViT-L 模型的预训练表示。由于 VC-1 不包含语言条件,我们通过 Universal Sentence Encoder Cer 等人 (2018) 单独嵌入语言指令以使其能与我们的方法进行比较。具体来说,我们将得到的语言嵌入token与 VC-1 产生的图像token拼接,并将拼接后的token序列通过 token learner Ryoo 等人 (2021)。token learner 产生的token序列随后由一个 RT-1 仅解码器Transformer模型处理,以预测机器人动作token。我们端到端地训练 VC-1 基线,并在训练期间解冻 VC-1 权重,因为这比使用冻结的 VC-1 权重带来了好得多的结果。
- R3M:R3M Nair 等人 (2022b) 是一种与 VC-1 类似的方法,它使用预训练的视觉-语言表示来改进策略训练。在这种情况下,作者使用人类活动的 Ego4D 数据集 Grauman 等人 (2022) 来学习策略使用的表示。VC-1 和 R3M 都测试了不同的先进表示学习方法,作为使用VLM的替代方案。为了从 R3M 预训练表示中获得语言条件策略,我们遵循上述 VC-1 的相同流程,不同之处在于我们使用 R3M ResNet50 模型来获取图像token,并在训练期间解冻它。
- MOO:MOO Stone 等人 (2023) 是一种以物体为中心的方法,其中首先使用VLM在原图像中以单个彩色像素的形式指定感兴趣的物体。然后,这张经过像素修改的图像与一个端到端策略一起训练,以完成一组操作任务。该基线对应一种情况,即VLM被用作一个单独的模块来增强感知,但其表示不用于策略学习。
D. 用于 RT-2 的VLM PaLI-X 模型架构包含一个用于处理图像的 ViT-22B Dehghani 等人 (2023),它可以接受 $n$ 个图像的序列,每个图像产生 $n \times k$ 个token,其中 $k$ 是每个图像的图像块数量。图像token经过一个投影层后,由一个具有 320 亿参数和 50 层的编码器-解码器骨干网络(类似于 UL2 Tay 等人 (2023))处理,该骨干网络将文本和图像作为嵌入联合处理,以自回归方式生成输出token。文本
RT-2:视觉-语言-动作模型将网络知识迁移至机器人控制 输入通常包含任务类型和任何额外上下文(例如,图像描述任务中的"Generate caption in ⟨lang⟩",或视觉问答任务中的"Answer in ⟨lang⟩: question")。在Language-Table(表1)上训练的PaLI-3B模型使用较小的ViT-G/14(Zhai等人,2022)(20亿参数)处理图像,并使用UL2-3B(Tay等人,2023)作为编码器-解码器网络。PaLM-E模型基于仅解码器的大语言模型,它将图像和文本等机器人数据投影到语言标记空间,并输出如高层规划之类的文本。对于所使用的PaLM-E-12B,用于将图像投影到语言嵌入空间的视觉模型是ViT-4B(Chen等人,2023b)。将连续变量与文本输入拼接,使得PaLM-E能够完全多模态化,接受多种输入,如多个传感器模态、以物体为中心的表示、场景表示和物体实体指代。
E. 训练细节 我们在预训练模型上进行了联合微调,这些模型包括PaLI-X(Chen等人,2023a)的50亿和550亿参数模型、PaLI(Chen等人,2023b)的30亿参数模型以及PaLM-E(Driess等人,2023)的120亿参数模型。对于RT-2-PaLI-X-55B,我们使用学习率1e-3和批次大小2048,对模型进行了80K梯度步的联合微调;而对于RT-2-PaLI-X-5B,我们使用相同的学习率和批次大小,对模型进行了270K梯度步的联合微调。对于RT-2-PaLM-E-12B,我们使用学习率4e-4和批次大小512,对模型进行了1M梯度步的联合微调。两个模型均使用下一个标记预测目标进行训练,这对应于机器人学习中的行为克隆损失。对于表1中Language-Table结果所使用的RT-2-PaLI-3B模型,我们使用学习率1e-3和批次大小128,对模型进行了300K梯度步的联合微调。
F. 评估细节 F.1. 评估场景 为了定量研究RT-2的涌现能力,我们研究了各种具有挑战性的语义评估场景,旨在衡量推理、符号理解和人物识别等能力。这些场景的部分视觉概览见图8,用于定量评估的完整指令列表见表3。
F.2. 评估指令 表2列出了在模型评估中用于未见过的物体、背景和环境的自然语言指令。每条指令运行1到5次,具体取决于该评估集中的指令总数。 表3列出了用于定量评估涌现能力的自然语言指令。每条指令运行5次。
21
RT-2:视觉-语言-动作模型将网络知识迁移至机器人控制 “将苹果移到颜色相同的杯子里” (b) 符号理解 (c) 人物识别 (a) 推理 “拿起一份健康饮料” “将香蕉移到二加一的和附近” “将绿色薯条移到红色杯子里” “将可乐罐移到Y附近” “将苹果移到树旁” “将香蕉移到安卓标志旁” “将可乐罐放到狗旁边” “将可乐罐移到戴眼镜的人旁边” “将可乐罐移到泰勒·斯威夫特旁边” 图8 | 用于研究RT-2涌现能力的部分评估场景概览。它们聚焦于三个大类:(a) 推理,(b) 符号理解,和 (c) 人物识别。图示指令是完整指令的子集,完整指令列于附录F.2。
| 任务组 | 任务 |
|---|---|
| 符号理解:符号1 | 将可乐罐移到X附近,将可乐罐移到3附近,将可乐罐移到Y附近 |
| 符号理解:符号2 | 将苹果移到树旁,将苹果移到鸭子旁,将苹果移到苹果旁,将苹果移到匹配的卡片旁 |
| 符号理解:符号3 | 将可乐罐放到狗旁边,将可乐罐推到心形图案上,将可乐罐放在星星图案上方 |
| 推理:数学 | 将香蕉移到2附近,将香蕉移到二加一的和附近,将香蕉移到三乘二的答案附近,将香蕉移到最小的数字附近 |
| 推理:标识 | 将杯子移到谷歌标志旁,将杯子移到安卓标志旁,将杯子移到YouTube标志旁,将杯子移到搜索引擎标志旁,将杯子移到手机标志旁 |
| 推理:营养 | 给我拿一份健康零食,拿起一份健康饮料,拿起一份甜饮料,将健康零食移到健康饮料旁,拿起一份咸味零食 |
| 推理:颜色与多语言 | 将苹果移到颜色相同的杯子里,将苹果移到颜色不同的杯子里,将绿色薯条移到颜色匹配的杯子里,将苹果移到绿色杯子里,将苹果移到红色杯子里,将绿色薯条移到红色杯子里,将苹果移到绿色杯子里,将绿色薯条移到红色杯子里 |
| 人物识别:名人 | 将可乐罐移到泰勒·斯威夫特旁边,将可乐罐移到汤姆·克鲁斯旁边,将可乐罐移到史努比狗狗旁边 |
| 人物识别:CelebA | 将可乐罐移到戴眼镜的人旁边,将可乐罐移到白发男子旁边,将可乐罐移到棕发女士旁边 |
表3 | 用于定量评估涌现能力的自然语言指令。
22
G. 典型失败案例
在图9中,我们展示了语言表格(Language Table)场景下一种显著的失败案例类型,即RT-2模型未能泛化到未见过的物体动力学。在这些案例中,尽管模型能够正确关注语言指令并移动到第一个正确的物体,但它无法控制这些物体具有挑战性的动力学特性,这些特性与此环境中见过的少量积木类物体(Lynch等人,2022)的动力学特性有显著不同。笔会直接从桌上滚落(图9,左),而香蕉的质心位置远离机器人接触点(图9,右)。我们注意到,推动动力学是出了名的难以预测和控制(Yu等人,2016)。我们假设,通过进一步扩大数据集以涵盖更多样化的环境和物体——例如,在此案例中,包含更多样化推动动力学类型的数据集(Dasari等人,2019),可能在机器人-环境交互动力学方面实现更好的泛化。
此外,尽管RT-2在现实世界操作任务的定性和定量涌现评估中表现出色,我们仍然发现了许多显著的失败案例。例如,在当前的训练数据集构成和训练方法下,RT-2似乎在以下方面表现不佳:
- 通过特定部位抓取物体,例如手柄
- 超出机器人数据所见范围的新颖动作,例如用毛巾擦拭或使用工具
- 灵巧或精确的动作,例如折叠毛巾
- 需要多层间接推理的扩展推理
图9 | 现实世界中未能泛化到未见物体动力学的定性失败案例示例。
H. 定量实验结果
H.1. 整体性能(对应第4.1节)
表4列出了我们的定量整体评估结果。我们发现,在已见任务上,RT-2的表现与基线模型相当或更好;在泛化到未见过的物体、背景和环境方面,RT-2显著优于基线模型。
| 模型 | 已见任务 | 未见物体 | 未见背景 | 未见环境 | 未见任务平均 |
|---|---|---|---|---|---|
| 简单 | 困难 | 简单 | 困难 | 简单 | |
| R3M (Nair等人, 2022b) | 45 | 32 | 14 | 13 | 9 |
| VC-1 (Majumdar等人, 2023a) | 63 | 34 | 10 | 13 | 3 |
| RT-1 (Brohan等人, 2022) | 92 | 31 | 43 | 71 | 9 |
| MOO (Stone等人, 2023) | 75 | 58 | 48 | 38 | 41 |
| RT-2-PaLI-X-55B (本文) | 91 | 70 | 62 | 96 | 48 |
| RT-2-PaLM-E-12B (本文) | 93 | 84 | 76 | 75 | 71 |
表4 | RT-2的两种实例化版本与基线模型在已见训练任务以及衡量对新颖物体、新颖背景和新颖环境泛化能力的未见评估中的整体性能。
H.2. 涌现评估(对应第4.2节)
表5列出了我们所有的定量涌现评估结果。我们发现,在这些新指令上,RT-2的表现比RT-1好2到3倍,且无需任何额外的机器人演示。这展示了我们的方法如何利用在网页规模视觉-语言数据集上进行预训练所获得的能力。
| 模型 | 符号理解 | 推理 | 人物识别 | 平均 |
|---|---|---|---|---|
| 符号1 | 符号2 | 符号3 | 平均 | |
| VC-1 (Majumdar等人, 2023a) | 7 | 25 | 0 | 11 |
| RT-1 (Brohan等人, 2022) | 27 | 20 | 0 | 16 |
| RT-2-PaLI-X-55B (本文) | 93 | 60 | 93 | 82 |
| RT-2-PaLM-E-12B (本文) | 67 | 20 | 20 | 36 |
表5 | RT-2与基线模型在定量涌现评估中的性能。
H.3. 规模与训练消融实验(对应第4.3节)
表6详细列出了关于模型规模和训练方法的消融实验定量结果。在所有实验中,我们看到模型规模对性能起着重要作用,并且联合微调(co-fine-tuning)优于微调(fine-tuning),而微调又优于从头训练(from scratch)。
| 模型 | 规模 | 训练方式 | 未见物体 | 未见背景 | 未见环境 | 平均 |
|---|---|---|---|---|---|---|
| 简单 | 困难 | 简单 | 困难 | |||
| RT-2-PaLI-X | 5B | 从头训练 | 0 | 10 | 46 | 0 |
| RT-2-PaLI-X | 5B | 微调 | 24 | 38 | 79 | 50 |
| RT-2-PaLI-X | 5B | 联合微调 | 60 | 38 | 67 | 29 |
| RT-2-PaLI-X | 55B | 微调 | 60 | 62 | 75 | 38 |
| RT-2-PaLI-X | 55B | 联合微调 | 70 | 62 | 96 | 48 |
表6 | RT-2的消融实验,展示了参数量和训练策略对泛化能力的影响。
I. 额外的思维链推理结果
如图10所示,我们展示了RT-2-PaLM-E完成的思维链推理轨迹的更多示例,如第4.4节所述。
注1:PaLM-E-12B原始预训练数据混合(如Driess等人(2023)所述)包含了用于高级视觉问答规划任务的机器人图像,这些图像可能与泛化场景中遇到的图像相似。然而,这些训练示例均不包含本实验评估的低级动作。
图10 | RT-2进行思维链推理的额外示例。
RT-2:视觉-语言-动作模型将网络知识迁移至机器人控制 任务组 任务 未见物体(简单) 捡起香蕉,将香蕉移到可乐罐附近,将橙色罐移到香蕉附近,捡起奥利奥,将奥利奥移到苹果附近,将红牛罐移到奥利奥附近,捡起梨,捡起椰子水,将梨移到椰子水附近,将百事可乐罐移到梨附近 未见物体(困难) 捡起冷萃咖啡罐,捡起大橙色盘子,捡起咀嚼玩具,捡起大网球,捡起鸟类装饰品,捡起鱼玩具,捡起姜汁柠檬康普茶,捡起鸡蛋分离器,捡起手表,捡起绿色雪碧罐,捡起蓝色超细纤维布,捡起黄梨,捡起椒盐脆饼片袋,捡起消毒湿巾,捡起菠萝味水,捡起绿色杯子,捡起泡菜零食,捡起小蓝盘子,捡起小橙色擀面杖,捡起章鱼玩具,捡起猫薄荷玩具 未见背景(简单) 捡起绿色墨西哥辣椒片袋,捡起橙色罐,捡起百事可乐罐,捡起七喜罐,捡起苹果,捡起蓝色薯片袋,捡起橙子,捡起七喜罐,将橙子移到水槽附近,捡起可乐罐,捡起海绵,捡起蓝莓能量棒 未见背景(困难) 捡起手表,捡起鸡蛋分离器,捡起绿色雪碧罐,捡起蓝色超细纤维布,捡起黄梨,捡起椒盐脆饼片袋,捡起消毒湿巾,捡起菠萝味水,捡起绿色杯子,捡起泡菜零食,捡起小蓝盘子,捡起小橙色擀面杖,捡起章鱼玩具,捡起猫薄荷玩具,捡起瑞典鱼袋,捡起大绿色擀面杖,捡起黑色太阳镜 未见环境(简单) 捡起可乐罐,捡起苹果,捡起蓝莓能量棒,将苹果移到可乐罐附近,将蓝莓能量棒移到苹果附近,将可乐罐移到蓝莓能量棒附近,捡起蓝色塑料瓶,捡起海绵,捡起蓝色薯片袋,将海绵移到蓝色塑料瓶附近,将蓝色薯片袋移到海绵附近,将蓝色塑料瓶移到蓝色薯片袋附近,将可乐罐移到白色马克杯附近,将海绵移到白色马克杯附近,将可乐罐移到黄色碗附近,将海绵移到黄色碗附近,将可乐罐移到绿色布附近,将海绵移到绿色布附近,将可乐罐移到盘子附近,将海绵移到盘子附近,将可乐罐移到勺子附近,将海绵移到勺子附近,将可乐罐移到橙色杯子附近,将海绵移到橙色杯子附近,捡起白色马克杯,捡起黄色碗,捡起绿色布,将白色马克杯移到海绵附近,将黄色碗移到海绵附近,将绿色布移到海绵附近,捡起盘子,捡起勺子,捡起橙色杯子,将盘子移到海绵附近,将勺子移到海绵附近,将橙色杯子移到海绵附近,将可乐罐放入水槽,将可乐罐丢入水槽,将可乐罐推入水槽,将海绵放入水槽,将海绵丢入水槽,将海绵推入水槽,将绿色布放入水槽,将绿色布丢入水槽,将绿色布推入水槽 未见环境(困难) 捡起可乐罐,捡起苹果,捡起蓝莓能量棒,将苹果移到可乐罐附近,将蓝莓能量棒移到苹果附近,将可乐罐移到蓝莓能量棒附近,将可乐罐移到订书机附近,将苹果移到订书机附近,将可乐罐移到键盘附近,将苹果移到键盘附近,将可乐罐移到纸巾盒附近,将苹果移到纸巾盒附近,将可乐罐移到纸张附近,将苹果移到纸张附近,将可乐罐移到鼠标附近,将苹果移到鼠标附近,将可乐罐移到书本附近,将苹果移到书本附近,捡起马克笔,捡起订书机,捡起鼠标,将马克笔移到苹果附近,将订书机移到苹果附近,将鼠标移到苹果附近,将可乐罐向左推,将可乐罐向右推,将海绵向左推,将海绵向右推,将纸巾盒向左推,将纸巾盒向右推,指向可乐罐,指向海绵,指向纸巾盒
表2 | 用于评估测试沿新物体、新环境和新背景维度进行受控分布偏移的自然语言指令。对于每个类别,我们引入了分布偏移较小和较大的评估设置。这些场景的可视化展示见图3。
觉得有用?分享给更多人