论文
AI 前沿论文中文翻译与导读,覆盖智能体、多模态、具身智能等方向
AI 前沿论文中文翻译与导读,覆盖智能体、多模态、具身智能等方向
仅通过10.6k数据点的简单SFT训练,OpenSeeker-v2在4个基准上刷新了30B级别搜索智能体的最优性能,超越了采用大规模预训练+强化学习流水线的商业系统。其关键在于三种数据合成策略:扩展知识图谱规模、扩大工具集以及严格低步过滤。
本文提出ARIS,一个通过跨模型对抗性协作协调机器学习研究流程的开源研究框架。系统引入执行器与评审器对抗协作机制,结合三层架构(执行层、编排层、保障层)确保研究可重复性与结果可靠性。实验表明,该框架能有效降低长期研究流程中的虚假成功风险,提升产出质量。
Web2BigTable 提出一种双层多智能体框架,上层协调器将任务分解为子问题,下层工作智能体并行执行,通过运行-验证-反思闭环和共享工作空间,实现覆盖广、一致性高的结构化信息提取。在 WideSearch 基准上,其 Avg@4 成功率 38.50(远超第二名 5.10),Row F1 达 63.53,Item F1 达 80.12,并在深度搜索任务中展现泛化能力。
本文提出Edit-R1框架,通过构建基于思维链的推理奖励模型(RRM)解决图像编辑中缺乏细粒度奖励的问题。该框架使用监督微调冷启动和群组对比偏好优化算法训练RRM,并利用GRPO优化编辑模型。实验表明,Edit-R1在多个指标上超越现有模型,并展现出随参数规模增长的性能提升趋势。
NVIDIA 发布 Nemotron 3 Nano Omni 模型,首次原生支持音频输入,并在文本、图像和视频模态上超越前代。该模型基于高效骨干网络并采用创新令牌缩减技术,推理延迟更低、吞吐量更高,在文档理解、长音视频理解和智能体计算机使用方面取得领先成果。研究团队公开了 BF16、FP8 和 FP4 格式的模型检查点及部分训练数据和代码。
本文针对自回归大型视觉语言模型中的“视觉信号稀释”问题,提出了一种轻量级可学习模块——持久视觉记忆(PVM)。该模块作为前馈网络的并行分支,建立距离无关的检索路径,直接提供视觉嵌入以维持精确的视觉感知,从而从结构上缓解深度生成中的信号抑制。在Qwen3-VL模型上的实验表明,PVM在4B和8B尺度上均能带来一致的平均准确率提升,尤其是在需要持续视觉感知的复杂推理任务中效果显著。
本文提出GenLIP,一种用于多模态大模型的视觉Transformer生成式预训练框架。它直接训练ViT从视觉令牌预测语言令牌,无需对比学习或额外文本解码器,在8B样本上达到或超越强基线,并在多分辨率训练后进一步提升OCR等细节任务性能。
针对大语言模型在监督微调后强化学习阶段出现分布偏移的问题,本文提出PRISM三阶段流水线,在SFT和RL之间插入基于同策略蒸馏的对齐阶段,通过黑盒对抗训练和多专家判别器提供解耦修正信号。在Qwen3-VL上的实验表明,该方法在4B和8B模型上分别将RL平均准确率提升4.4和6.0个百分点,且兼容多种RL算法。
本文提出AgentSafe框架,通过层级信息管理和记忆保护增强基于大语言模型的多智能体系统安全性。其中ThreatSieve组件验证通信权限并防止身份伪装,HierarCache组件则为首个针对智能体记忆的系统性防御方案。实验表明,在对抗条件下该框架的防御成功率超过80%,且具有良好的可扩展性。
本文提出Ctx2Skill框架,通过多智能体自我博弈机制,无需人工标注或外部反馈即可自动发现、精炼和选择上下文特定技能。在四个上下文学习任务上,Ctx2Skill持续提升了多种骨干模型的求解率,有效增强了语言模型的情境学习能力。
Map2World是一种新颖的3D世界生成框架,它允许用户通过任意形状和尺度的分割图来条件化生成3D世界,解决了现有方法在全局尺度一致性和布局灵活性上的不足。该框架通过一个细节增强网络在保持场景整体结构的前提下添加精细细节,并利用了资产生成器的强先验知识,从而在有限训练数据下也能实现跨领域的鲁棒泛化。实验表明,Map2World在可控性、尺度一致性和内容连贯性上显著优于现有方法,使用户能够在更复杂的条件下生成3D世界。
本研究针对德语语言模型,提出基于质量过滤的高信号数据筛选方法。实验表明,在过滤后的高质量子集上多次训练(多轮次)优于在更大但低质量语料上的单轮训练,即使训练token量减少10-360倍仍能达到最优性能。这为非英语LLM的高效训练提供了新路径。