论文
AI 前沿论文中文翻译与导读,覆盖智能体、多模态、具身智能等方向
AI 前沿论文中文翻译与导读,覆盖智能体、多模态、具身智能等方向
研究发现当前视频理解评测中40-60%的问题仅凭文本线索即可回答,导致视觉语言模型(VLM)的视频理解能力被高估。为此,作者提出VidGround方法,仅使用真正需要视觉基础的问题进行后训练。实验表明,该方法仅用69.1%的数据即可将性能提升6.2个百分点,证明数据质量是提升VLM视频理解能力的关键瓶颈。
MegaTrain提出了一种以内存为中心的系统,可在单GPU上全精度训练100B+参数的大语言模型。该系统将参数和优化器状态存储在主机内存中,采用流水线双缓冲执行引擎和动态权重绑定技术,有效克服CPU-GPU带宽瓶颈。在单H200 GPU上成功训练120B参数模型,相比DeepSpeed ZeRO-3实现了1.84倍训练吞吐量提升。
Vanast提出统一框架,通过单张人像、服装图像和姿态引导视频直接生成服装迁移的人体动画视频。该研究构建大规模三元监督数据,引入双模块视频扩散Transformer架构,解决了传统两阶段方法中的身份漂移、服装变形和前后不一致问题。该方法实现了高保真、身份一致的动画生成,支持零样本服装插值,在虚拟试衣领域具有重要应用价值。
本文提出了Video-MME-v2基准,通过渐进式三层层次结构和基于组的非线性评估策略,系统评估视频理解的鲁棒性与真实性。实验发现当前最佳模型与人类专家存在显著差距,并揭示了视觉信息聚合和时序建模中的层次瓶颈。该基准为下一代视频多模态大语言模型提供了权威测试平台。
本文提出TriAttention方法,通过观察RoPE前空间中Q/K向量的集中特性,利用三角级数估计关键键值的重要性,有效解决长推理中的KV缓存内存瓶颈。在32K令牌生成任务中,TriAttention在保持全注意力推理精度的同时,实现了2.5倍吞吐量提升或10.7倍KV内存压缩,使OpenClaw模型可在单张消费级GPU上部署长上下文任务。
本文提出FileGram框架,通过文件系统行为轨迹实现AI智能体个性化。该框架包含数据生成引擎、诊断基准和内存架构三大组件,实验表明现有记忆系统在相关任务上仍面临挑战。这项工作为隐私保护下的个性化文件系统智能体研究提供了新范式。
本研究提出MinerU2.5-Pro,通过数据工程与训练策略优化,在保持1.2B参数架构不变的情况下,将文档解析性能提升至新高度。核心创新包括覆盖性、信息量与标注准确性协同设计的数据引擎,以及三阶段渐进式训练策略。在OmniDocBench v1.6评估中达到95.69分,超越参数量200倍以上的模型,证明数据质量比架构创新更为关键。
本文提出过程驱动图像生成方法,将图像合成分解为交错进行的文本推理与视觉生成多步迭代。通过文本规划、视觉草稿、文本反思、视觉细化的四阶段循环,使生成过程具有显式、可解释、可监督的特性。该方法在多个文本到图像生成基准测试中验证了有效性,为多模态模型提供了更接近人类绘画思维的生成范式。
本文提出了OpenWorldLib,一个用于高级世界模型的标准化推理框架。作者基于世界模型的发展历程,给出了清晰的定义:世界模型是以感知为核心、具备交互与长期记忆能力、用于理解和预测复杂世界的模型或框架。该框架整合了不同任务下的模型,实现了高效复用与协同推理,为世界模型研究提供了统一的基础。
本研究首次系统评估了LLM技能在真实场景中的使用效果,发现技能优势在现实条件下会显著下降。通过检索和优化策略,可部分恢复性能损失,揭示了技能机制的当前局限与改进方向。这项工作为LLM智能体的技能开发提供了重要基准。
本文提出AURA框架,实现了端到端的视频流实时交互系统,支持连续视频处理与主动响应。该系统在流式基准测试中达到最先进性能,并在双80G加速器上实现2FPS实时演示。该研究解决了现有视频大模型在实时流媒体交互中的局限性,推动了视频AI向实时应用的发展。
智能体技能——包含程序性知识和可执行资源的结构化包,供智能体在推理时动态加载——已成为增强 LLM 智能体的可靠机制。然而,推理时技能增强存在根本性限制:检索噪声引入无关指导,注入的技能内容带来大量 token 开销,而模型从未真正习得它所遵循的知识。我们提出一个问题:技能是否可以被内化到模型参数中,使其在无需任何运行时技能检索的情况下实现零样本自主行为?我们提出 Skill0,一个专为技能内化设计的上下文强化学习框架。Skill0 引入了一种训练时课程,从提供完整技能上下文开始,逐步撤除。技能按类别离线分组,并与交互历史一起渲染为紧凑的视觉上下文,教授模型工具调用和多轮任务完成。动态课程机制…