论文
AI 前沿论文中文翻译与导读,覆盖智能体、多模态、具身智能等方向
AI 前沿论文中文翻译与导读,覆盖智能体、多模态、具身智能等方向
我们提出了一个包含七个大型语言模型的异构集成系统,用于SemEval-2026任务8中的可信多轮对话生成。该系统在最终评估中以条件调和平均分0.7827排名第一,显著超越最强基线模型(0.6390)。通过消融实验证明,模型家族、规模和提示策略的多样性对性能至关重要。
本文提出未来前向动力学因果注意力(FFDC)机制,通过轻量级验证器联合推理预测动作、视觉动态和真实观测,判断预测轨迹是否仍可信,从而实现世界动作模型(WAM)的适应性执行。在RoboTwin基准上,该方法减少69.10%的模型推理次数和34.02%的执行时间,成功率提升2.54%;真实实验中成功率提升35%。该工作首次将动作块大小自适应问题建模为未来-现实一致性验证,在保持长程规划效率的同时提升复杂场景响应能力。
本文提出直接语料交互(DCI)方法,让智能体使用通用终端工具直接搜索原始语料,而非依赖嵌入模型或检索API。在多个基准测试中,该方法显著优于传统稀疏、稠密及重排序基线,并在无需语义检索器的情况下在BrowseComp-Plus和多跳问答上取得高精度。结果表明,随着语言智能体能力增强,检索质量不仅取决于推理能力,还取决于模型与语料交互的接口分辨率。
受认知科学中全局点火现象的启发,本文提出 Mindscape Activation Signature (MiA-Signature) 概念,通过子模选择关键概念压缩全局激活模式,并以轻量迭代优化。将 MiA-Signature 集成到 RAG 和智能体系统中,在多项长上下文理解任务上取得了一致性提升。
现有方法主要关注静态几何,忽略了交互所需的功能属性。本文提出PhysForge,一种基于物理蓝图和分层物理的解耦两阶段框架,并构建了包含15万带四层物理标注资产的大型数据集PhysDB。实验表明,PhysForge能生成功能合理、可直接用于仿真的3D资产,为交互式3D内容和具身智能体提供了稳健的数据引擎。
HERMES++提出统一驾驶世界模型,融合3D场景理解与未来几何预测。通过BEV表征、LLM增强查询、当前到未来链接及联合几何优化,该模型在多项基准上超越专业方法,实现点云预测与场景理解的双优性能。
本文提出RLDX-1,一种基于多流动作Transformer(MSAT)的通用机器人策略,通过模态特定流与跨模态联合自注意力统一视觉-语言-动作模型,实现运动感知、长期记忆和物理传感等广泛功能。在ALLEX仿人机器人任务中,RLDX-1成功率达86.8%,远超π0.5和GR00T N1.6的约40%,为复杂现实世界灵巧操作提供了可靠方案。
针对现有蒸馏方法将教师模型输出一视同仁导致质量受限的问题,提出Stream-R1框架,通过共享奖励机制自适应重加权蒸馏目标,在卷积分和时空元素层面分别处理可信度与困惑度差异。在标准流式视频生成基准上,该方法在视觉质量、运动质量和文本对齐三个维度均一致提升,且不增加架构修改或推理成本。
OpenSearch-VL 提出了一种完全开源的多模态深度搜索智能体训练方案,通过高质量数据构建流水线、多样化工具环境和多轮致命感知 GRPO 算法,在七个基准上平均提升超过10个百分点,性能媲美商业模型。该方法解决了训练数据、轨迹合成和训练细节不透明的问题,为多模态搜索研究提供了可复现的基础。
针对扩散模型在测试时扩展中候选探索成本高、缺乏时间引导的问题,本文提出将焦点转向流式视频生成,利用其块级合成和少步去噪特性,设计Stream-T1框架。该框架包含噪声传播、奖励剪枝和记忆下沉三个单元,在5秒和30秒视频基准上显著提升了时间一致性、运动平滑度和帧级视觉质量。
MiniCPM-o 4.5提出Omni-Flow统一流式框架,将全模态输入输出沿时间轴对齐,实现同时感知与响应的全双工交互。该模型仅9B参数,在视觉语言能力上接近Gemini 2.5 Flash,在全模态理解和语音生成方面超越Qwen3-Omni-30B-A3B,并可在12GB内存的终端设备上实时运行。
本文提出MARBLE框架,通过梯度空间优化解决扩散模型多奖励微调中的样本层级不匹配问题。该方法无需手动调整奖励权重,在SD3.5 Medium模型上同时优化五个奖励维度,使最差对齐奖励的梯度余弦在所有小批量中从负变为正,且训练速度达到基准的0.97倍。