AI 前沿论文中文翻译与导读,覆盖智能体、多模态、具身智能等方向
本研究提出视觉-语言-动作模型,通过将机器人动作表示为文本标记,与网络规模视觉语言数据联合微调,实现端到端机器人控制。实验表明RT-2模型具备显著的新对象泛化能力、语义指令理解及基础推理能力。该工作为机器人智能提供了可扩展的知识迁移框架。