论文

AI 前沿论文中文翻译与导读，覆盖智能体、多模态、具身智能等方向

CodeTracer：面向可追溯的智能体状态追踪

本文提出CodeTracer追踪架构，通过演化提取器解析异构运行数据，重构完整状态转移历史为层次化追踪树，并实现故障起源定位。在CodeTraceBench上的实验表明，该方法显著优于直接提示和轻量级基线，其诊断信号重放能有效恢复失败运行。该工作解决了代码智能体调试困难的问题，为复杂编码工作流提供了可扩展的追踪分析方案。

深度·4月15日·33 分钟

CocoaBench：野外评估统一数字智能体

研究团队提出了CocoaBench基准测试，用于评估需要结合视觉、搜索和编码能力的统一数字智能体。通过人类设计的长期任务和自动评估函数，实验显示当前最佳系统成功率仅为45.1%，表明智能体在推理规划、工具使用和视觉基础方面仍有巨大改进空间。这项工作填补了现有评估仅测试孤立能力的空白，为统一智能体系统提供了可靠的评估框架。

深度·4月15日·26 分钟

伪统一：熵探测揭示统一多模态模型的信息模式分歧

本研究提出信息论探测框架，分析统一多模态模型（UMMs）的编码与生成过程。发现伪统一现象源于模态不对称编码和模式分裂响应，仅通过上下文预测实现信息流一致性的模型能获得更真实的统一。该工作首次从模型内部探测统一性，表明真实多模态协同需要信息流一致性而非仅共享参数。

深度·4月15日·26 分钟

AgentSPEX：智能体规范与执行语言

本文提出AgentSPEX语言，用于规范LLM智能体工作流，支持显式控制流、模块化结构和状态管理。该语言包含可视化编辑器，并在7个基准测试中验证了其有效性。相比现有框架，AgentSPEX提供了更可解释、易访问的工作流编写范式，解决了智能体行为难以控制和维护的问题。

深度·4月14日·8 分钟

语言模型智能体探索与利用误差的可测量方法

本研究设计了可控环境来量化语言模型智能体的探索与利用误差，无需访问内部策略。通过程序化调整环境难度，发现前沿模型在该任务上表现不佳，推理模型表现更优，且通过简单工程改进可显著提升性能。这项工作为评估语言模型在开放决策任务中的能力提供了新工具。

深度·4月14日·19 分钟

Lyra 2.0：可探索的生成式3D世界

Lyra 2.0通过解决空间遗忘和时间漂移问题，实现了大规模、持久可探索的3D世界生成。该方法利用每帧3D几何进行信息路由，并通过自增强历史训练纠正合成误差，显著提升了3D一致性视频轨迹的长度。这使得生成式重建能够结合视频模型的视觉保真度与实时渲染就绪的3D输出，为复杂环境创建开辟了新途径。

深度·4月14日·37 分钟

面向ML研究的自主长程工程系统

本研究提出AiScientist系统，通过结构化编排与持久状态连续性实现自主长程ML研究工程。该系统采用分层编排与File-as-Bus工作空间，在PaperBench基准上平均提升10.54分，MLE-Bench Lite达到81.82%通过率。研究表明长程ML研究本质是持久项目状态下的协同系统问题，而非单纯局部推理问题。

深度·4月14日·28 分钟

大语言模型在线蒸馏再思考：现象、机制与策略

本文系统研究了大语言模型在线蒸馏的训练动态与机制，发现成功蒸馏需满足师生思维模式兼容且教师需提供超越学生训练数据的新能力。研究揭示了成功蒸馏表现为师生在高概率标记上的渐进对齐，并提出两种实用策略以恢复失败的蒸馏过程。该研究为理解在线蒸馏的底层机制提供了重要见解，对模型后训练具有指导意义。

深度·4月14日·56 分钟

KnowRL：基于最小充分知识引导的强化学习提升大语言模型推理能力

本研究提出KnowRL框架，将提示设计转化为最小充分引导问题，通过原子知识点分解和约束子集搜索构建紧凑的训练指导。在八个推理基准测试中，KnowRL-Nemotron-1.5B模型无需推理时提示即可达到70.08%平均准确率，比基线提升9.63个百分点，为1.5B规模模型建立了新的性能标杆。

深度·4月14日·34 分钟

WildDet3D：开放世界可提示三维检测新突破

本研究提出WildDet3D统一架构，支持文本、点和框等多种提示方式，并能融合深度几何线索。通过构建包含13500个类别、超100万图像的大规模数据集WildDet3D-Data，在多个基准测试中实现最优性能，开放世界检测AP达22.6-24.8。该工作解决了现有方法提示单一和数据集局限的瓶颈，推动了开放环境三维感知的实用化进程。

深度·4月14日·44 分钟

OpenSpatial：赋能空间智能的数据引擎

本文提出了OpenSpatial——一个开源数据引擎，旨在解决高质量空间数据生成缺乏统一框架的问题。该引擎基于3D边界框构建数据层次，并发布了包含300万样本的大规模数据集OpenSpatial-3M。实验表明，基于该数据训练的模型在多项空间推理基准上平均相对提升19%，为空间智能研究提供了重要基础设施。

深度·4月14日·27 分钟

RefineAnything：多模态区域精修，完美还原局部细节

本文提出RefineAnything模型，针对用户指定区域进行精细化图像修复，同时严格保持未编辑区域不变。通过Focus-and-Refine策略和边界一致性损失，显著提升局部细节还原效果与背景一致性。该研究为高精度局部图像编辑提供了实用解决方案，在RefineEval基准测试中表现优异。

深度·4月14日·28 分钟