论文

AI 前沿论文中文翻译与导读，覆盖智能体、多模态、具身智能等方向

BERT作为评判者：高效参考评估的鲁棒替代方案

本文提出BERT-as-a-Judge方法，通过轻量级训练实现生成式输出的语义评估。该方法在36个模型和15个任务上验证，性能优于传统词法方法且接近大型LLM评判者。这为语言模型评估提供了可靠且可扩展的解决方案。

深度·4月16日·14 分钟

MindDR：高效多智能体深度研究框架

MindDR提出了一种高效的多智能体深度研究框架，通过精心设计的数据合成和多阶段训练流程，仅使用约300亿参数模型即实现领先性能。该框架采用三智能体协作架构和四阶段专业化训练，在多个基准测试中表现优异，已在理想汽车部署为在线产品。

深度·4月16日·86 分钟

从条件分布到边际分布：预训练空间强化学习研究

本文提出预训练空间强化学习（PreRL）方法，通过直接优化边际分布P(y)突破传统RLVR的瓶颈。研究发现负样本强化（NSR）机制能有效驱动推理能力，在此基础上提出双空间强化学习（DSRL）策略，实验证明该方法显著优于现有基线。这项研究为增强大语言模型推理能力提供了新范式。

深度·4月15日·29 分钟

记忆迁移学习：编码智能体跨领域记忆转移机制

本研究提出记忆迁移学习（MTL）方法，通过构建异构领域的统一记忆池，使编码智能体能够跨任务领域共享记忆。实验表明，跨领域记忆可将平均性能提升3.7%，其中高层次抽象洞察的迁移效果最佳，而低层次具体轨迹则容易产生负迁移。这项工作为突破单领域记忆限制提供了实证设计原则。

深度·4月15日·37 分钟

GFT：从模仿到奖励微调，基于无偏分组优势与动态系数校正

本文提出Group Fine-Tuning（GFT）统一后训练框架，通过分组优势学习缓解奖励稀疏性，并利用动态系数校正稳定优化过程。实验表明GFT在性能上持续超越SFT方法，且能更平滑地与后续强化学习训练结合。该工作为语言模型后训练提供了更稳定、高效的优化路径。

深度·4月15日·37 分钟

Uni-ViGU：基于扩散模型的视频生成与理解统一框架

本文提出Uni-ViGU框架，通过扩展视频生成器作为基础，统一视频生成与理解任务。采用统一流方法实现连续视频流与离散文本流匹配，并设计双向训练机制将生成知识迁移至理解任务。实验表明该框架在视频生成与理解上均取得竞争性性能，验证了以生成为中心的架构是实现统一多模态智能的可扩展路径。

深度·4月15日·30 分钟

条带即令牌：原生UV分割的艺术网格生成

本文提出SATO框架，采用三角形条带启发式的令牌排序策略，将网格序列构建为显式编码UV边界的连通面链，从而保持艺术网格的组织化边流和语义布局。该方法的统一表示允许同一令牌序列解码为三角形或四边形网格，通过联合训练提升几何规则性。实验表明SATO在几何质量、结构连贯性和UV分割方面优于现有方法。

深度·4月15日·78 分钟

记忆增强动态奖励塑形：减少重复错误，提升采样多样性

本文提出MEDS框架，通过存储历史行为信号并利用密度聚类识别频繁错误模式，对重复错误进行动态惩罚。在五个数据集和三个基础模型上，MEDS平均性能提升最高达4.37个点，同时显著增加了采样行为多样性。该方法解决了强化学习中采样多样性下降和重复错误模式的问题，为大规模语言模型训练提供了新思路。

深度·4月15日·18 分钟

OmniShow：统一多模态条件生成人机交互视频

本文提出OmniShow框架，通过统一通道条件注入和门控局部注意力机制，实现了文本、图像、音频和姿态多模态条件下的人机交互视频生成。该框架采用解耦-联合训练策略有效利用异构数据，并在自建基准测试中达到最优性能，为自动化内容创作提供了工业级解决方案。

深度·4月15日·30 分钟

QuanBench+：首个统一多框架量子代码生成基准

本文提出QuanBench+基准，统一评估Qiskit、PennyLane和Cirq三大框架下的量子代码生成能力，包含42个对齐任务。实验显示，单次生成最佳准确率在Qiskit达59.5%，经反馈修复后可提升至83.3%。该研究揭示了多框架量子编程仍高度依赖框架特定知识，为可靠量子代码生成提供了首个跨平台评估标准。

深度·4月15日·12 分钟

Transformer注意力沉没：利用、解释与缓解综述

本文首次系统综述了Transformer中的注意力沉没现象，围绕基础利用、机理解释和策略缓解三个维度梳理了当前研究现状。该工作澄清了关键概念，为研究者提供了该领域的演进脉络和发展趋势，有助于在现有Transformer范式中有效管理注意力沉没问题。

深度·4月15日·229 分钟

Audio Flamingo Next：新一代开放音频语言模型

本文提出了Audio Flamingo Next（AF-Next），这是Audio Flamingo系列中最强大的新一代大型音频语言模型，旨在提升对语音、环境声音和音乐的理解与推理能力。AF-Next通过引入更强的基础模型、可扩展的数据构建策略、长达30分钟的音频输入支持以及新的时间音频思维链推理范式，在20个音频理解基准测试中大幅超越同类开放模型，并展现出强大的实际应用和泛化能力。该研究为音频语言模型的发展提供了重要的技术突破和开源资源。

深度·4月15日·31 分钟