论文

AI 前沿论文中文翻译与导读，覆盖智能体、多模态、具身智能等方向

学习预见：揭示在线策略蒸馏的高效奥秘

本文揭示了在线策略蒸馏（OPD）的高效性源于其“预见性”——在训练早期就建立稳定的更新轨迹。作者从模块分配和更新方向两个层面验证了这一发现，并提出了加速方法EffOPD，实现3倍训练加速且保持性能。

深度·5月20日·30 分钟

通过简单统一缩放实现金牌级奥赛推理

本文提出一种简单统一的配方，将后训练的推理骨干转化为严格的奥赛级别求解器。通过逆向困惑度课程SFT和两阶段RL pipeline，训练出的SU-01模型在IMO、USAMO、IPhO等竞赛中达到金牌水平，轨迹可超过10万token，并展现出对数学物理以外领域的科学推理泛化能力。

深度·5月20日·42 分钟

本文提出因果强制++（Causal Forcing++），一种可扩展的少步自回归（AR）扩散蒸馏方法，用于实时交互视频生成。通过引入因果一致性蒸馏（causal CD）来初始化少步AR学生模型，无需预计算完整PF-ODE轨迹，在帧级2步设置下超越现有最先进的4步块级方法，VBench总分数提升0.1，推理延迟降低50%，训练成本减少约4倍。该方法进一步拓展到动作条件世界模型生成，为实时交互视频生成提供了高效解决方案。

深度·5月20日·47 分钟

逐步协同多教师解码蒸馏长链推理

本文提出CoRD框架，通过基于困惑度评分和束搜索的逐步推理合成，实现异构大模型协作生成高质量推理轨迹。实验表明，CoRD能以更少的监督信号达到接近教师水平的学生性能，并泛化至域外和开放场景。

深度·5月20日·26 分钟

AI自动科研：路线图与使用指南

本文系统分析了AI在研究全生命周期中的应用，包括创意生成、写作、验证和传播四个阶段。研究发现AI在结构化、检索和工具辅助任务中表现可靠，但在真正新颖的创意和科学判断上仍不可靠，全自动系统尚未达到顶级会议水平。最后提供了分类体系、基准测试和实用指南。

深度·5月20日·148 分钟

审计智能体执行框架安全性

本文提出HarnessAudit框架，用于审计LLM智能体执行轨迹的边界合规性、执行保真度和系统稳定性。通过构建包含210个任务的基准测试，发现任务完成率与安全执行不一致，且多智能体协作扩大了安全风险面。研究表明，框架设计设定了安全部署的上限，填补了输出级评估无法检测中间轨迹违规的空白。

深度·5月20日·137 分钟

物理脑1.0：从人类视频到机器人物理常识

PhysBrain 1.0提出了一种新方法，通过将大规模人类第一人称视频转换为结构化物理常识监督，训练视觉-语言模型，进而迁移到机器人策略。在多项多模态问答和具身控制基准测试中达到最优结果，尤其在域外场景中表现突出，表明人类交互视频可有效桥接多模态理解与机器人控制。

深度·5月20日·13 分钟

列表策略优化：基于组RLVR的LLM响应单纯形目标投影法

本文揭示了基于组的策略梯度优化方法具有共同的几何结构：隐式定义响应单纯形上的目标分布并通过一阶近似进行投影。为此，提出列表策略优化（LPO），通过将近端RL目标限制在响应单纯形上并执行精确散度最小化，显式进行目标投影。LPO在多样推理任务和LLM骨干上相比典型策略梯度基线持续提升训练性能，同时保持优化稳定性和响应多样性。

深度·5月13日·26 分钟

AutoTTS：环境驱动的大模型测试时缩放自动发现

本文提出AutoTTS框架，将测试时缩放策略的发现过程自动化，通过构建控制空间和提供廉价反馈的环境，无需手动设计启发式规则。在数学推理基准上，自动发现的策略在准确率-成本权衡上超越手工基线，且仅需39.9美元和160分钟。该方法可泛化到未见基准和模型规模，降低了大模型推理优化的门槛。

深度·5月13日·12 分钟

MACE-Dance：级联专家模型实现音乐驱动舞蹈视频生成

本文提出MACE-Dance框架，通过级联混合专家模型（MoE）同时优化舞蹈动作生成与外观合成。运动专家采用BiMamba-Transformer混合架构和免引导训练策略，在3D舞蹈生成中达到最优；外观专家通过解耦的运动-美学微调策略，在姿态驱动动画上刷新记录。该工作为音乐驱动舞蹈视频生成提供了高性能解决方案。

深度·5月13日·69 分钟

HumanNet：百万小时人体中心视频学习

HumanNet 是一个包含一百万小时人体活动视频的大规模语料库，涵盖第一人称和第三人称视角、细粒度动作、物体交互及长期行为，并提供丰富的交互注释。实验表明，使用 HumanNet 中的 1000 小时第一人称视频进行持续训练，效果优于使用 100 小时真实机器人数据，证明人体视频可成为机器人数据的可扩展替代方案。

深度·5月13日·18 分钟

超越检索：代码搜索的多任务基准与模型

本文提出 CoREB，一个抗污染、多任务的代码检索与重排序基准，涵盖文本到代码、代码到文本、代码到代码三个任务。实验发现短关键词查询导致所有模型性能崩溃，而微调的 CoREB-Reranker 首次在所有任务上取得一致提升，弥补了现有研究忽视重排序环节的缺陷。

深度·5月13日·19 分钟

论文

学习预见：揭示在线策略蒸馏的高效奥秘

通过简单统一缩放实现金牌级奥赛推理

因果强制++：可扩展少步自回归扩散蒸馏实现实时交互视频生成

逐步协同多教师解码蒸馏长链推理

AI自动科研：路线图与使用指南

审计智能体执行框架安全性

物理脑1.0：从人类视频到机器人物理常识

列表策略优化：基于组RLVR的LLM响应单纯形目标投影法

AutoTTS：环境驱动的大模型测试时缩放自动发现

MACE-Dance：级联专家模型实现音乐驱动舞蹈视频生成

HumanNet：百万小时人体中心视频学习

超越检索：代码搜索的多任务基准与模型

学习预见：揭示在线策略蒸馏的高效奥秘

通过简单统一缩放实现金牌级奥赛推理

因果强制++：可扩展少步自回归扩散蒸馏实现实时交互视频生成

逐步协同多教师解码蒸馏长链推理

AI自动科研：路线图与使用指南

审计智能体执行框架安全性

物理脑1.0：从人类视频到机器人物理常识

列表策略优化：基于组RLVR的LLM响应单纯形目标投影法

AutoTTS：环境驱动的大模型测试时缩放自动发现

MACE-Dance：级联专家模型实现音乐驱动舞蹈视频生成

HumanNet：百万小时人体中心视频学习

超越检索：代码搜索的多任务基准与模型