论文

AI 前沿论文中文翻译与导读，覆盖智能体、多模态、具身智能等方向

MemEye：面向多模态智能体记忆的视觉中心评估框架

MemEye提出了一种从视觉证据粒度（场景级到像素级）和证据使用方式（单一证据到演化综合）两个维度评估多模态记忆的框架。基于该框架构建了包含8个生活场景任务的基准测试，并引入消融驱动的验证门评估可回答性、捷径抵抗性、视觉必要性和推理结构。在4个VLM骨干上评估13种记忆方法后，发现现有架构在保留细粒度视觉细节和推理状态变化方面仍存在不足。

深度·5月20日·21 分钟

达尔文家族：MRI信任加权进化合并实现语言模型无训练扩展

达尔文家族框架通过无梯度的权重空间重组实现大语言模型的免训练进化合并。其旗舰模型Darwin-27B-Opus在GPQA Diamond上达到86.9%准确率，超越完全训练的基座模型，验证了诊断引导的进化合并可作为昂贵后训练管线的实用替代方案。

深度·5月20日·10 分钟

超越个体智能：LLM多智能体系统中的协作、故障归因与自我进化综述

本文围绕LLM多智能体系统，提出了LIFE框架：奠定能力基础、通过协作集成智能体、通过归因发现故障、通过自主改进实现进化。系统梳理了各阶段依赖关系，识别了跨阶段开放挑战，并提出了闭环多智能体系统的研究路线图。

深度·5月20日·110 分钟

SANA-WM：高效分钟级世界模型

SANA-WM是一个仅26亿参数的开源世界模型，原生训练用于一分钟视频生成，在720p分辨率下合成高保真、分钟级视频，并支持精确相机控制。该模型仅使用约21.3万公开视频片段，在64块H100上训练15天，相比现有方法效率提升36倍，同时视觉质量可媲美大规模工业基线。

深度·5月20日·28 分钟

WildClawBench：真实长时智能体评估基准

WildClawBench是一个包含60个双语多模态任务的原生运行时基准测试，平均每个任务耗时约8分钟、调用20多个工具。在19个前沿模型上，最佳模型Claude Opus 4.7仅达到62.2%的整体准确率，其余均低于60%，表明当前模型在长时、原生运行时的智能体任务上表现远未解决。

深度·5月20日·23 分钟

MemLens：多模态长期记忆基准测试

MemLens提出首个系统比较长上下文LVLMs和记忆增强代理的多模态记忆基准，包含789个问题覆盖五种记忆能力。研究发现长上下文模型在短上下文准确率高但随对话增长退化，而记忆代理长度稳定但视觉保真度下降，两者均未单独解决任务。

深度·5月20日·24 分钟

自蒸馏智能体强化学习

本文提出SDAR方法，将在线策略自蒸馏（OPSD）作为门控辅助目标与强化学习（RL）主优化相结合，解决了多轮智能体训练中OPSD的不稳定性问题。在ALFWorld、WebShop和Search-QA任务上，SDAR相比GRPO分别提升了9.4%、10.2%和7.0%的性能，并避免了朴素GRPO+OPSD的波动性。

深度·5月20日·30 分钟

KVPO：基于KV语义探索的ODE原生视频对齐框架

本文提出KVPO，一种ODE原生的在线GRPO框架，用于对齐自回归视频生成器与人类偏好。通过因果语义探索技术将随机噪声替换为历史KV缓存扰动，并引入基于轨迹速度能量的速度场替代策略，实现了在流匹配速度空间中与原ODE公式一致的奖励加权对比目标。实验表明，该方法在多个蒸馏AR视频生成器上显著提升了视觉质量、运动质量和文本-视频对齐。

深度·5月20日·24 分钟

LongLive-2.0：长视频生成的NVFP4并行基础设施

LongLive-2.0提出了首个基于NVFP4精度和序列并行技术的长视频生成训练与推理框架。在训练中通过平衡的序列并行和NVFP4量化实现2.15倍加速，推理时结合W4A4量化和异步解码达到45.7 FPS，为长视频生成提供了高效的基础设施。

深度·5月20日·20 分钟

对抗强化学习提升大模型智能体安全性

提出ARLAS框架，利用对抗强化学习训练攻击者与防御者，使大模型智能体自动抵御提示注入攻击。实验表明，ARLAS显著降低攻击成功率并提升任务成功率，生成多样化攻击，增强模型鲁棒性。

深度·5月20日·25 分钟

Lance：多任务协作的统一多模态建模

Lance是一种轻量级原生统一模型，支持图像和视频的多模态理解、生成与编辑。它通过双路混合专家架构和解耦能力路径，在共享交错多模态序列上实现联合上下文学习，并引入模态感知旋转位置编码减少异质视觉令牌干扰。实验表明，Lance在图像和视频生成上显著优于现有开源统一模型，同时保持强大多模态理解能力。

深度·5月20日·37 分钟

CiteVQA：面向可信文档智能的证据归因基准

论文提出CiteVQA基准，要求多模态大模型在回答文档问题时同时提供元素级边框引用，并联合评估答案与引用的正确性。通过严格归因准确率（SAA）评估20个模型，发现模型普遍存在“归因幻觉”（答案正确但引用错误），最强闭源模型SAA仅76.0，最强开源模型仅22.5，揭示了仅评估答案的可靠性漏洞。

深度·5月20日·46 分钟