论文
AI 前沿论文中文翻译与导读,覆盖智能体、多模态、具身智能等方向
AI 前沿论文中文翻译与导读,覆盖智能体、多模态、具身智能等方向
本文针对机器人视频生成领域缺乏标准化评估的问题,提出了综合性基准RBench和最大开源数据集RoVid-X。RBench在五个任务领域和四种机器人形态上评估模型,发现现有模型在物理真实性方面存在显著缺陷,其评估结果与人类评价的相关系数达0.96。同时,通过四阶段数据流程构建了包含400万标注视频片段的RoVid-X数据集,为具身AI的发展提供了评估与训练的双重支撑。
本文提出Web检索感知分块(W-RAC)框架,专门针对基于Web文档的检索增强生成系统。该方法将文本提取与语义分块规划解耦,通过结构化表示和LLM仅用于分组决策而非文本生成,显著降低令牌使用并消除幻觉风险。实验表明,W-RAC在保持或提升检索性能的同时,将分块相关LLM成本降低一个数量级,为大规模Web内容处理提供了高效解决方案。
本研究提出导航基础模型NavFoM,通过统一架构处理多模态导航输入,在八百万样本上训练,涵盖四足机器人、无人机等多种具身形态及视觉语言导航、目标追踪等任务。该模型在多个公开基准测试中达到先进性能,无需任务特定微调,展现出强大的泛化能力和实际应用价值。
本研究针对大语言模型在动态3D环境中缺乏时空记忆能力的问题,提出了3DLLM-Mem动态记忆管理模型和3DMem-Bench评估基准。实验表明,该模型在最具挑战性的具身任务上成功率比基线方法提升16.5%,实现了任务相关信息的高效融合与记忆。这项工作为具身智能在复杂环境中的长期规划与行动提供了关键技术突破。
本文提出Deep Neural Lesion(DNL)方法,无需数据和优化即可定位神经网络关键参数,通过符号位翻转实现破坏。实验表明,仅翻转ResNet-50的2个符号位即可使ImageNet准确率下降99.8%,在目标检测、实例分割和大语言模型中同样有效。该研究揭示了神经网络对参数扰动的极端脆弱性,并提出了选择性保护关键位的防御方案。
本研究提出视觉-语言-动作模型,通过将机器人动作表示为文本标记,与网络规模视觉语言数据联合微调,实现端到端机器人控制。实验表明RT-2模型具备显著的新对象泛化能力、语义指令理解及基础推理能力。该工作为机器人智能提供了可扩展的知识迁移框架。