论文

AI 前沿论文中文翻译与导读，覆盖智能体、多模态、具身智能等方向

Matrix-Game 3.0：实时流式交互世界模型，具备长时记忆能力

本研究提出了Matrix-Game 3.0，一种支持720p实时长视频生成的记忆增强交互世界模型。通过数据引擎升级、长时一致性训练框架和高效推理优化，模型在5B参数下实现40FPS实时生成，并在分钟级序列中保持稳定的记忆一致性。该工作为工业级可部署世界模型提供了实用路径。

深度·4月14日·51 分钟

结构化蒸馏提升Web智能体泛化能力

本文提出Agent-as-Annotators框架，通过结构化轨迹生成方法，使用Gemini 3 Pro作为教师模型生成合成轨迹，并训练9B参数学生模型。该模型在WebArena基准测试中达到41.5%成功率，超越多个闭源模型，并在未见过的企业环境中实现18.2个百分点的性能提升。研究表明结构化轨迹合成能够产生具有竞争力的本地可部署Web智能体。

深度·4月14日·26 分钟

FORGE：面向制造场景的细粒度多模态评估框架

本研究针对制造业多模态大模型缺乏细粒度评估的问题，构建了结合2D图像与3D点云的制造场景数据集FORGE，并评估了18个前沿模型。关键发现表明，模型瓶颈并非视觉定位，而是领域知识不足，为后续研究指明方向。通过监督微调，模型在制造任务上取得90.8%的相对性能提升，为领域自适应提供了可行路径。

深度·4月14日·25 分钟

EXAONE 4.5：首个开放权重的视觉语言模型技术报告

LG AI Research发布了首个开放权重的视觉语言模型EXAONE 4.5，该模型通过集成专用视觉编码器到EXAONE 4.0框架中，实现了原生多模态预训练。模型在文档理解任务上表现优异，同时支持长达256K tokens的上下文，适用于企业级应用场景。这项研究标志着LG在工业部署AI技术方面的重要进展，旨在通过持续扩展领域和应用场景推动AI为生活服务。

深度·4月14日·24 分钟

ClawGUI：GUI智能体训练、评估与部署统一框架

本文提出了ClawGUI开源框架，首次在单一平台中解决了GUI智能体训练、评估和部署的三大瓶颈。该框架包含支持虚拟与物理环境的强化学习基础设施、标准化评估流程以及多平台部署能力，其中ClawGUI-2B模型在MobileWorld基准上取得了17.1%的成功率，较同规模基线提升6.0%。这一工作为GUI智能体的实际应用提供了完整的技术栈支持。

深度·4月13日·39 分钟

RationalRewards：推理奖励模型提升视觉生成训练与测试性能

本文提出RationalRewards奖励模型，通过生成多维推理评析而非单一评分来改进视觉生成。该方法在训练时提供细粒度强化学习奖励，在测试时通过生成-评析-优化循环提升输出质量。实验表明该模型在少量数据下达到先进偏好预测性能，并能显著提升文本到图像和图像编辑生成器的效果。

深度·4月13日·28 分钟

LPM 1.0：基于视频的角色表演模型

本文提出LPM 1.0（大型表演模型），通过构建多模态人类中心数据集和训练17B参数的扩散变换器，实现了单人多工音频-视觉对话表演。该模型在保持身份一致性的同时，能够实时生成无限长度的表演视频，在LPM-Bench基准测试中取得最优结果。这项工作为对话代理、直播角色和游戏NPC提供了视觉引擎，解决了现有视频模型在表现力、实时推理和长期身份稳定性之间的三难困境。

深度·4月13日·54 分钟

KnowU-Bench：迈向交互式、主动化、个性化移动智能体评估

本文提出了KnowU-Bench，一个面向个性化移动智能体的在线评测基准，通过可复现的Android仿真环境，覆盖42项通用GUI任务、86项个性化任务和64项主动任务。实验发现，即使前沿模型在需要用户偏好推断或干预校准的模糊指令下，性能也降至50%以下，揭示了界面操作能力与可信赖个人助手之间的根本差距。该工作填补了现有评测无法捕捉交互式偏好获取和主动决策链的空白。

深度·4月13日·27 分钟

DMax：扩散语言模型的激进并行解码

本文提出DMax，一种针对扩散语言模型（dLLMs）的高效解码新范式。通过将解码重新定义为从掩码嵌入到词嵌入的渐进自精炼过程，DMax有效缓解了并行解码中的错误累积问题，在保持生成质量的同时实现了激进的解码并行度。实验表明，该方法在GSM8K和MBPP等基准测试中显著提升了吞吐量（TPF提升2-3倍），在H200 GPU上达到平均1338 TPS的推理速度。

深度·4月13日·26 分钟

OpenVLThinkerV2：多领域视觉任务通用推理模型

本文提出高斯GRPO训练目标，通过非线性分布匹配解决多模态模型中奖励拓扑差异与感知推理平衡难题，并引入响应长度和熵塑形机制。基于此构建的OpenVLThinkerV2在18个基准测试中超越开源及前沿专有模型，为通用多模态推理提供了稳定高效的解决方案。

深度·4月13日·28 分钟

Audio-Omni：首个统一音频生成与编辑的多模态框架

本文提出了Audio-Omni，这是首个能够统一处理通用声音、音乐和语音生成与编辑任务的端到端框架，集成了多模态理解能力。通过结合冻结的多模态大语言模型和可训练的扩散Transformer，并构建包含百万级编辑对的新数据集AudioEdit，该框架在多个基准测试中达到最先进性能，超越了现有统一方法，并与专业模型相当或更优。这项工作为实现通用生成音频智能开辟了有前景的方向。

深度·4月12日·34 分钟

SPPO：面向长程推理任务的序列级PPO算法

本文提出序列级近端策略优化（SPPO）算法，将推理过程建模为序列级上下文赌博机问题，通过解耦标量价值函数生成低方差优势信号，无需多重采样。在数学基准测试中，SPPO显著超越标准PPO，性能媲美计算密集型分组方法，为对齐推理大语言模型提供了资源高效框架。

深度·4月10日·29 分钟