论文
AI 前沿论文中文翻译与导读,覆盖智能体、多模态、具身智能等方向
AI 前沿论文中文翻译与导读,覆盖智能体、多模态、具身智能等方向
智能体技能——包含程序性知识和可执行资源的结构化包,供智能体在推理时动态加载——已成为增强 LLM 智能体的可靠机制。然而,推理时技能增强存在根本性限制:检索噪声引入无关指导,注入的技能内容带来大量 token 开销,而模型从未真正习得它所遵循的知识。我们提出一个问题:技能是否可以被内化到模型参数中,使其在无需任何运行时技能检索的情况下实现零样本自主行为?我们提出 Skill0,一个专为技能内化设计的上下文强化学习框架。Skill0 引入了一种训练时课程,从提供完整技能上下文开始,逐步撤除。技能按类别离线分组,并与交互历史一起渲染为紧凑的视觉上下文,教授模型工具调用和多轮任务完成。动态课程机制…
本研究通过创新的双屏拼接采集方法,从AAA游戏中提取了400万帧连续同步的RGB和G-buffer数据,构建了大规模动态数据集。该数据集显著提升了双向渲染能力,支持野外几何与材质分解以及高保真视频生成。同时提出基于视觉语言模型的评估协议,实验表明其能有效提升跨数据集泛化性能并与人类判断高度一致。
本研究提出了一种新型可引导视觉表征方法,通过在视觉编码器中早期融合文本信息,使全局和局部特征能够通过自然语言进行引导。该方法在保持基础表征质量的同时,能够聚焦图像中任意指定对象,并在异常检测和个性化对象识别任务中表现出色,实现了对分布外任务的零样本泛化。
本文提出VOID框架,用于在视频中删除物体时保持物理一致性。通过生成配对数据集训练模型,结合视觉语言模型识别受影响区域,指导视频扩散模型生成合理结果。相比现有方法,VOID能更好地处理物体交互场景,为视频编辑提供更真实的世界模拟能力。
本文系统综述了语言模型中潜在空间的研究进展,将其组织为五个视角:基础、演进、机制、能力与展望。文章揭示了潜在空间作为语言模型原生计算基质的优势,包括克服显式空间的计算限制,并支持推理、规划、建模等广泛能力。该综述为理解潜在空间作为下一代智能的通用计算范式提供了重要参考。
本研究提出了首个面向开放问题的自主多智能体进化框架CORAL,通过持久记忆、异步执行和心跳干预机制,取代了传统固定启发式规则。在数学、算法和系统优化等任务中,CORAL在10项任务上取得最优结果,改进率比基线高3-10倍。该研究表明增强智能体自主性和多智能体协作能显著提升开放探索能力。
本文提出OpenVLA,一个基于970k真实机器人演示训练的开源视觉-语言-动作模型。该模型在29个任务上比RT-2-X性能提升16.5%,参数减少7倍,并能高效微调至新任务。这项工作解决了现有VLA模型封闭且微调方法不足的问题,推动了机器人学习的普及。
本文提出EgoSim,一种闭环的自中心世界模拟器,通过建模可更新的3D场景状态,生成空间一致的交互视频并持续更新底层3D场景。为解决训练数据稀缺问题,设计了从大规模单目自中心视频中提取静态点云、相机轨迹和具身动作的可扩展流程,并开发了低成本数据采集系统EgoCap。实验表明,EgoSim在视觉质量、空间一致性和泛化能力上显著优于现有方法,并支持跨具身迁移到机器人操作。
DataFlex 是基于 LLaMA-Factory 构建的统一数据中心动态训练框架,支持样本选择、领域混合调整和样本重新加权三大范式,实验证明动态方法始终优于静态全量训练。
本文针对机器人视频生成领域缺乏标准化评估的问题,提出了综合性基准RBench和最大开源数据集RoVid-X。RBench在五个任务领域和四种机器人形态上评估模型,发现现有模型在物理真实性方面存在显著缺陷,其评估结果与人类评价的相关系数达0.96。同时,通过四阶段数据流程构建了包含400万标注视频片段的RoVid-X数据集,为具身AI的发展提供了评估与训练的双重支撑。
本研究提出导航基础模型NavFoM,通过统一架构处理多模态导航输入,在八百万样本上训练,涵盖四足机器人、无人机等多种具身形态及视觉语言导航、目标追踪等任务。该模型在多个公开基准测试中达到先进性能,无需任务特定微调,展现出强大的泛化能力和实际应用价值。
本研究针对大语言模型在动态3D环境中缺乏时空记忆能力的问题,提出了3DLLM-Mem动态记忆管理模型和3DMem-Bench评估基准。实验表明,该模型在最具挑战性的具身任务上成功率比基线方法提升16.5%,实现了任务相关信息的高效融合与记忆。这项工作为具身智能在复杂环境中的长期规划与行动提供了关键技术突破。