论文

AI 前沿论文中文翻译与导读，覆盖智能体、多模态、具身智能等方向

X-Stream：多流视频理解基准与多模态大模型评估

提出首个多流视频理解基准X-Stream，包含4220个QA对覆盖多窗口、多视角、多设备场景，并通过双验证流水线避免对单流的过度依赖。实验表明现有MLLMs在多流任务上得分仅约50%，揭示了当前方案的局限。

深度·6月4日·21 分钟

VLM作为教师：自适应测试时优化实现视频推理

本文提出VLM-as-Teacher范式，利用视觉语言模型（VLM）作为教师，提取任务规则并构建可微分奖励，引导视频生成模型（VGM）通过测试时在线优化LoRA模块进行推理。在符号和通用视频推理基准上，该方法平均提升16.7个点，远超传统VLM-as-Solver范式（+0.4点）和Best-of-N采样（+2.2点），实现了高效且可泛化的视频推理。

深度·6月4日·28 分钟

KVarN：方差归一化KV缓存量化减少推理错误累积

本文提出 KVarN，一种无需校准的 KV 缓存量化方法，通过 Hadamard 旋转和双轴方差归一化，解决了自回归解码中由错误 token 尺度导致的误差累积问题。在 MATH500、AIME24 和 HumanEval 等生成任务上，2-bit 精度下达到最优效果，显著减少推理错误，提升大语言模型的长程推理能力。

深度·6月4日·21 分钟

Mega-ASR: 大规模真实声学模拟驱动的野外语音识别

本文提出Mega-ASR框架，通过构建包含54种复合声学场景的Voices-in-the-Wild-2M数据集，结合渐进式声学到语义优化和双粒度WER门控策略，在复杂噪声环境下相对词错误率降低超30%。该方法突破了现有模型在真实世界中的声学鲁棒性瓶颈。

深度·5月23日·26 分钟

最小RLVR训练：秩一轨迹外推LLM

本文发现RLVR训练的权重轨迹是低秩且可预测的，秩一近似即可捕获大部分性能增益。基于此提出RELEX方法，通过短窗口观测估计秩一子空间，并用线性回归外推未来检查点，仅需15%的训练步数即可匹配或超越完整RLVR性能。该方法能外推到观测窗口的10-20倍以上，且无需学习模型，归功于秩一投影的降噪效应。

深度·5月23日·25 分钟

大型音频语言模型综述：泛化、可信赖性与展望

本文全面调查了大型音频语言模型（LALMs）的可信性问题。作者分析了LALMs的内部机制，并建立了涵盖幻觉、鲁棒性、安全、隐私、公平性和认证六个维度的可信度分类法。研究发现，当前攻击手段成熟而防御措施不足，存在显著的可信度差距，并提出了“纵深防御”架构等策略以推动可信音频智能的发展。

深度·5月23日·46 分钟

DelTA：基于判别式Token信用分配的可验证奖励强化学习

本文提出判别式Token信用分配方法DelTA，通过放大辨识性梯度方向并抑制共享高频模式，解决了序列级RLVR中奖励信号被稀释的问题。在7个数学基准上，DelTA在Qwen3-8B-Base和Qwen3-14B-Base上分别平均提升3.26和2.62个点，并展示了在代码生成等任务上的泛化能力。

深度·5月23日·29 分钟

IndusAgent：基于智能体工具增强的开放词汇工业异常检测

本文提出了IndusAgent，一种工具增强的智能体框架，通过构建结构化数据集Indus-CoT和动态编排外部工具，解决了多模态大模型在工业异常检测中的领域偏差和幻觉问题。在五个工业异常检测基准上取得了最先进的零样本性能。

深度·5月23日·22 分钟

ACC：智能体轨迹编译实现长上下文训练

本文提出智能体上下文编译（ACC）方法，将智能体在执行任务时产生的轨迹转换为长上下文问答对，使模型直接回答无需工具调用。训练Qwen3-30B-A3B后在MRCR和GraphWalks上分别提升18.1和7.6个点，达到与Qwen3-235B-A22B相当的水平。该方法无需额外标注，可扩展结合任意长上下文训练方法，为长距离依赖建模提供了有效的有监督微调数据。

深度·5月23日·19 分钟

π-Bench：评估长程工作流中的主动式个人助理代理

π-Bench是一个包含100个多轮任务的基准测试，覆盖5个领域用户画像，用于评估代理在长程交互中主动识别和满足用户隐含需求的能力。实验表明，主动式协助仍具挑战性，且任务完成度与主动性存在明显区别，先前交互对后续任务中的隐性意图解析具有重要价值。

深度·5月23日·28 分钟

Video2GUI：从视频中大规模合成GUI交互轨迹

提出Video2GUI框架，从无标签网络视频中自动提取GUI交互轨迹，构建含1200万轨迹、覆盖1500+应用的WildGUI数据集。基于此预训练Qwen2.5-VL等模型，在多个GUI基准上提升5-20%，达到或超越当前最优。

深度·5月23日·14 分钟

无需训练的无限帧长视频生成一致性增强方法

提出MIGA方法，通过两阶段对齐机制减少训练-推理差距，并采用自反思和长程帧引导的双重一致性增强机制，在不增加计算开销的情况下实现一致的无限长视频生成。在VBench和NarrLV上取得最先进性能。

深度·5月23日·20 分钟