论文
AI 前沿论文中文翻译与导读,覆盖智能体、多模态、具身智能等方向
AI 前沿论文中文翻译与导读,覆盖智能体、多模态、具身智能等方向
本研究提出了首个面向开放问题的自主多智能体进化框架CORAL,通过持久记忆、异步执行和心跳干预机制,取代了传统固定启发式规则。在数学、算法和系统优化等任务中,CORAL在10项任务上取得最优结果,改进率比基线高3-10倍。该研究表明增强智能体自主性和多智能体协作能显著提升开放探索能力。
本研究通过线性探针发现,大语言模型在生成推理文本前,其激活状态已编码了工具调用决策。激活引导实验表明,扰动决策方向会显著改变推理过程,且模型倾向于合理化被引导后的决策。这些证据表明,推理模型的行动选择可能早于文本层面的思考过程。
本文提出OpenVLA,一个基于970k真实机器人演示训练的开源视觉-语言-动作模型。该模型在29个任务上比RT-2-X性能提升16.5%,参数减少7倍,并能高效微调至新任务。这项工作解决了现有VLA模型封闭且微调方法不足的问题,推动了机器人学习的普及。
本文提出EgoSim,一种闭环的自中心世界模拟器,通过建模可更新的3D场景状态,生成空间一致的交互视频并持续更新底层3D场景。为解决训练数据稀缺问题,设计了从大规模单目自中心视频中提取静态点云、相机轨迹和具身动作的可扩展流程,并开发了低成本数据采集系统EgoCap。实验表明,EgoSim在视觉质量、空间一致性和泛化能力上显著优于现有方法,并支持跨具身迁移到机器人操作。
本文提出了一种新的检索模型训练范式——从智能体交互轨迹中学习检索(LRAT),通过挖掘智能体多步交互中的行为信号来训练检索模型。实验表明,该方法在不同智能体架构和规模下均能显著提升证据召回率、任务成功率和执行效率。这项工作为智能体搜索时代的检索模型训练提供了实用且可扩展的监督来源。
本文提出了LIBERO-Para基准,用于系统评估视觉-语言-动作模型对指令复述的鲁棒性。研究发现,在七种VLA配置中,模型性能因复述下降22-52个百分点,主要源于对词汇表面匹配的依赖而非语义理解。为此,作者提出了PRIDE度量方法,通过语义和句法因素量化复述难度,为模型鲁棒性评估提供了更精细的工具。
DataFlex 是基于 LLaMA-Factory 构建的统一数据中心动态训练框架,支持样本选择、领域混合调整和样本重新加权三大范式,实验证明动态方法始终优于静态全量训练。
本文提出SEVerA框架,通过形式化防护生成模型(FGGM)为自演化智能体提供安全与正确性保证。该框架将智能体代码生成转化为约束学习问题,在搜索、验证、学习三阶段中确保零约束违反的同时提升任务性能。这项工作解决了自主智能体在未知输入下缺乏可靠性保障的关键问题,为安全可信的AI系统开发提供了新途径。
本文提出SpecEyes框架,通过轻量级无工具多模态大模型进行推测性规划,预测执行轨迹并提前终止昂贵工具链,同时引入基于答案可分离性的认知门控机制进行自验证。实验表明,SpecEyes在V* Bench、HR-Bench和POPE基准上实现1.1-3.35倍加速,准确率保持甚至提升6.7%,显著提升系统吞吐量。该工作解决了智能体多模态大模型中的序列瓶颈问题,为高效部署提供了新思路。
本文系统综述了基于大语言模型的智能体工作流优化方法,将现有研究统一归类为代理计算图框架。通过区分静态与动态工作流确定时机、优化维度及评估信号,建立了清晰的方法论体系。该研究为LLM智能体工作流优化提供了统一框架和可复现评估标准,推动该领域研究的系统化发展。
本文提出PersonaVLM框架,将通用多模态大语言模型转化为个性化助手,具备记忆、推理和响应对齐三大能力。该框架在Persona-MME基准测试中比基线提升22.4%,超越GPT-4o达5.2%,解决了现有模型无法捕捉用户长期偏好演变的问题。
本文提出“屏幕图灵测试”框架,将GUI代理与检测器的对抗建模为MinMax优化问题,并构建了移动触控动态数据集。研究发现现有LMM代理因运动学不自然易被检测,为此建立了代理拟人化基准(AHB)与检测指标,并提出从启发式噪声到数据驱动行为匹配的方法,证明代理可在不牺牲性能前提下实现高拟真度。这项工作将研究范式从“代理能否完成任务”转向“如何在以人为中心的生态系统中执行任务”,为对抗性数字环境中的无缝共存奠定基础。