论文

AI 前沿论文中文翻译与导读，覆盖智能体、多模态、具身智能等方向

SANA-Streaming：实时流式视频编辑的混合扩散Transformer

本文提出SANA-Streaming，一种面向消费级GPU的高分辨率实时流式视频编辑系统算法协同设计框架。通过混合扩散Transformer架构、循环反向正则化训练策略以及融合GDN内核与混合精度量化的高效系统协同设计，在单张RTX 5090 GPU上实现了1280×704分辨率、24 FPS的端到端实时视频编辑，显著优于现有方法。

深度·6月4日·23 分钟

线性模型集成消除水印：分布扰动的脆弱性

本文揭示了水印技术的一个根本漏洞：当用户使用多个大语言模型时（如市场中的多个提供商），整合它们的输出分布可以消除水印痕迹。实验表明，仅需集成3-5个模型即可将检测z分数降至阈值以下，并将假阳性率控制在5%以内，同时提升文本质量27.5%、速度提高6倍。该发现对AI文本检测的鲁棒性提出了严峻挑战，需提供商间前所未有的协调。

深度·6月4日·34 分钟

Crafter：多智能体驱动的可编辑科学图表生成

提出Crafter多智能体框架，无需架构更改即可处理多种图表类型与输入条件，生成出版级图表。其姊妹系统CraftEditor将栅格输出转为可编辑SVG。在CraftBench等基准上显著优于现有方法，并开源代码与基准。

深度·6月4日·29 分钟

Function2Scene：依据功能规范生成3D室内布局

Function2Scene是一个根据自然语言功能描述（如用户角色和活动）生成3D室内布局的框架。它通过17项功能约束（涵盖空间、人体工学、活动和环境）进行迭代评估与优化，在30个专业室内设计案例中，94.3%的情况下优于现有方法。该工作将文本驱动场景合成从“摆放物件”转向了“设计支持人类活动的空间”。

深度·6月4日·19 分钟

SwanVoice：面向独白与对话的表现力零样本语音合成

提出了SwanVoice，一种支持1-4说话人的零样本语音合成模型，结合VAE、流匹配DiT和扩散微调，可同时生成高质量独白和对话。在SwanBench-Speech测试中，其在表现力层次和结构上超越现有开源基线，内容准确性仍有提升空间。

深度·6月4日·33 分钟

同事技能：通过专家知识蒸馏自动生成AI技能

本文提出COLLEAGUE.SKILL系统，能够从异构痕迹中自动蒸馏出可检查、可修正、可代理使用的人员技能包。系统生成包含能力轨道和行为轨道的版本化技能包，支持自然语言反馈更新与跨平台部署，已在开源社区获得18.5k星标并积累215个技能，展示了将人员技能表示为便携修正包而非黑盒提示的可行性。

深度·6月4日·18 分钟

LongTraceRL：基于搜索智能体轨迹与扣分奖励的长上下文推理

本文针对大语言模型在长上下文推理中难以定位和整合关键信息的问题，提出LongTraceRL方法。通过知识图谱随机游走生成多跳问题，并利用搜索智能体轨迹构建高混淆度的分层干扰文档，同时设计基于实体的扣分奖励机制，对中间推理步骤进行细粒度过程监督。实验表明，该方法在多个长上下文基准上显著优于基线，并促进了基于证据的全面推理。

深度·6月4日·27 分钟

表示强制：无瓶颈统一多模态模型

本文提出表示强制（RF）技术，使统一多模态模型无需外部VAE即可在像素空间内生预测视觉表示，从而消除结构瓶颈。实验表明，RF在图像生成上匹配最先进的VAE方法，在理解任务上更优，为端到端无瓶颈统一多模态模型迈出有效一步。

深度·6月4日·22 分钟

信任区域策略蒸馏：稳定大模型在线蒸馏方法

本文提出信任区域在线蒸馏（TrOPD），通过信任区域机制、异常值估计和离策略引导等技术，解决教师与学生分布差异导致的在线蒸馏不稳定问题。实验表明，TrOPD在数学推理、代码生成和通用任务上持续超越现有最先进基线。

深度·6月4日·25 分钟

Harness-1：带状态外化框架的强化学习搜索智能体

本文提出Harness-1，一个20B参数的搜索智能体，通过在外化搜索状态（包括候选池、重要性标记集、压缩观察等）的环境框架上训练强化学习策略，使策略专注于语义搜索决策。在八个检索基准上，Harness-1平均召回率达到0.730，比最强开源搜索子智能体高11.4个百分点，且与更大的前沿模型搜索器竞争。其跨领域泛化能力表明，显式搜索状态的强化学习可产生超越训练领域的检索行为。

深度·6月4日·22 分钟

K-BrowseComp：韩语情境网络浏览智能体基准

我们提出了 K-BrowseComp，一个基于韩语情境的网络浏览智能体基准，包含 400 个问题，其中 300 个由母语者手动构建验证。在该子集上，前沿模型（如 GPT-5.5）仅达到 30.00-45.67%，而韩国本土模型仅 0.00-10.33%，揭示显著性能差距。此外，我们构建了 100 道合成题作为困难测试，最强模型也仅 26%。该基准为评估非英语情境下的代理能力提供了关键资源。

深度·6月4日·26 分钟

PEFT扩展三部曲：迈向百万个性化万亿参数模型

本文重新审视参数高效微调（PEFT）的角色，将其从全参数微调的廉价替代方案扩展为大型共享基础模型上的持久化本地状态。作者提出三个扩展维度：向上扩展（更强共享先验使局部更新更有用）、向下扩展（研究适配器最小可靠尺寸）和向外扩展（大量持久化实例共存），并介绍了管理适配器身份、版本、溯源、评估和服务驻留的MinT基础设施。结果表明PEFT可作为持久化个人模型的紧凑载体，而不仅是预算有限的替代方案。

深度·6月4日·67 分钟