论文

AI 前沿论文中文翻译与导读，覆盖智能体、多模态、具身智能等方向

先看后答：视觉基础后训练提升视频理解

研究发现当前视频理解评测中40-60%的问题仅凭文本线索即可回答，导致视觉语言模型（VLM）的视频理解能力被高估。为此，作者提出VidGround方法，仅使用真正需要视觉基础的问题进行后训练。实验表明，该方法仅用69.1%的数据即可将性能提升6.2个百分点，证明数据质量是提升VLM视频理解能力的关键瓶颈。

深度·4月6日·30 分钟

MegaTrain：单GPU全精度训练百亿参数大模型

MegaTrain提出了一种以内存为中心的系统，可在单GPU上全精度训练100B+参数的大语言模型。该系统将参数和优化器状态存储在主机内存中，采用流水线双缓冲执行引擎和动态权重绑定技术，有效克服CPU-GPU带宽瓶颈。在单H200 GPU上成功训练120B参数模型，相比DeepSpeed ZeRO-3实现了1.84倍训练吞吐量提升。

深度·4月6日·34 分钟

Vanast：基于合成三元监督的人像动画虚拟试衣

Vanast提出统一框架，通过单张人像、服装图像和姿态引导视频直接生成服装迁移的人体动画视频。该研究构建大规模三元监督数据，引入双模块视频扩散Transformer架构，解决了传统两阶段方法中的身份漂移、服装变形和前后不一致问题。该方法实现了高保真、身份一致的动画生成，支持零样本服装插值，在虚拟试衣领域具有重要应用价值。

深度·4月6日·33 分钟

Video-MME-v2：视频理解基准迈向新阶段

本文提出了Video-MME-v2基准，通过渐进式三层层次结构和基于组的非线性评估策略，系统评估视频理解的鲁棒性与真实性。实验发现当前最佳模型与人类专家存在显著差距，并揭示了视觉信息聚合和时序建模中的层次瓶颈。该基准为下一代视频多模态大语言模型提供了权威测试平台。

深度·4月6日·38 分钟

TriAttention：基于三角KV压缩的高效长推理方法

本文提出TriAttention方法，通过观察RoPE前空间中Q/K向量的集中特性，利用三角级数估计关键键值的重要性，有效解决长推理中的KV缓存内存瓶颈。在32K令牌生成任务中，TriAttention在保持全注意力推理精度的同时，实现了2.5倍吞吐量提升或10.7倍KV内存压缩，使OpenClaw模型可在单张消费级GPU上部署长上下文任务。

深度·4月6日·40 分钟

FileGram：基于文件系统行为轨迹的智能体个性化框架

本文提出FileGram框架，通过文件系统行为轨迹实现AI智能体个性化。该框架包含数据生成引擎、诊断基准和内存架构三大组件，实验表明现有记忆系统在相关任务上仍面临挑战。这项工作为隐私保护下的个性化文件系统智能体研究提供了新范式。

深度·4月6日·34 分钟

MinerU2.5-Pro：数据驱动文档解析的极限突破

本研究提出MinerU2.5-Pro，通过数据工程与训练策略优化，在保持1.2B参数架构不变的情况下，将文档解析性能提升至新高度。核心创新包括覆盖性、信息量与标注准确性协同设计的数据引擎，以及三阶段渐进式训练策略。在OmniDocBench v1.6评估中达到95.69分，超越参数量200倍以上的模型，证明数据质量比架构创新更为关键。

深度·4月6日·61 分钟

笔画思维：基于交错推理的过程驱动图像生成

本文提出过程驱动图像生成方法，将图像合成分解为交错进行的文本推理与视觉生成多步迭代。通过文本规划、视觉草稿、文本反思、视觉细化的四阶段循环，使生成过程具有显式、可解释、可监督的特性。该方法在多个文本到图像生成基准测试中验证了有效性，为多模态模型提供了更接近人类绘画思维的生成范式。

深度·4月6日·29 分钟

OpenWorldLib：高级世界模型的统一代码库与定义

本文提出了OpenWorldLib，一个用于高级世界模型的标准化推理框架。作者基于世界模型的发展历程，给出了清晰的定义：世界模型是以感知为核心、具备交互与长期记忆能力、用于理解和预测复杂世界的模型或框架。该框架整合了不同任务下的模型，实现了高效复用与协同推理，为世界模型研究提供了统一的基础。

深度·4月6日·31 分钟

技能在真实场景中的效用评估：LLM技能使用基准测试

本研究首次系统评估了LLM技能在真实场景中的使用效果，发现技能优势在现实条件下会显著下降。通过检索和优化策略，可部分恢复性能损失，揭示了技能机制的当前局限与改进方向。这项工作为LLM智能体的技能开发提供了重要基准。

深度·4月6日·28 分钟

AURA：视频流实时理解与交互框架

本文提出AURA框架，实现了端到端的视频流实时交互系统，支持连续视频处理与主动响应。该系统在流式基准测试中达到最先进性能，并在双80G加速器上实现2FPS实时演示。该研究解决了现有视频大模型在实时流媒体交互中的局限性，推动了视频AI向实时应用的发展。

深度·4月5日·41 分钟

智能体技能——包含程序性知识和可执行资源的结构化包，供智能体在推理时动态加载——已成为增强 LLM 智能体的可靠机制。然而，推理时技能增强存在根本性限制：检索噪声引入无关指导，注入的技能内容带来大量 token 开销，而模型从未真正习得它所遵循的知识。我们提出一个问题：技能是否可以被内化到模型参数中，使其在无需任何运行时技能检索的情况下实现零样本自主行为？我们提出 Skill0，一个专为技能内化设计的上下文强化学习框架。Skill0 引入了一种训练时课程，从提供完整技能上下文开始，逐步撤除。技能按类别离线分组，并与交互历史一起渲染为紧凑的视觉上下文，教授模型工具调用和多轮任务完成。动态课程机制…

深度·4月5日·17 分钟

论文

先看后答：视觉基础后训练提升视频理解

MegaTrain：单GPU全精度训练百亿参数大模型

Vanast：基于合成三元监督的人像动画虚拟试衣

Video-MME-v2：视频理解基准迈向新阶段

TriAttention：基于三角KV压缩的高效长推理方法

FileGram：基于文件系统行为轨迹的智能体个性化框架

MinerU2.5-Pro：数据驱动文档解析的极限突破

笔画思维：基于交错推理的过程驱动图像生成

OpenWorldLib：高级世界模型的统一代码库与定义

技能在真实场景中的效用评估：LLM技能使用基准测试

AURA：视频流实时理解与交互框架

Skill0：通过上下文智能体强化学习实现技能内化

先看后答：视觉基础后训练提升视频理解

MegaTrain：单GPU全精度训练百亿参数大模型

Vanast：基于合成三元监督的人像动画虚拟试衣

Video-MME-v2：视频理解基准迈向新阶段

TriAttention：基于三角KV压缩的高效长推理方法

FileGram：基于文件系统行为轨迹的智能体个性化框架

MinerU2.5-Pro：数据驱动文档解析的极限突破

笔画思维：基于交错推理的过程驱动图像生成

OpenWorldLib：高级世界模型的统一代码库与定义

技能在真实场景中的效用评估：LLM技能使用基准测试

AURA：视频流实时理解与交互框架

Skill0：通过上下文智能体强化学习实现技能内化