先看后答:视觉基础后训练提升视频理解
深度2026年4月6日30 分钟阅读
最有趣的发现是:广泛使用的视频理解评测和后训练数据集中存在大量仅需文本即可回答的问题,这严重低估了视觉语言模型的实际视频理解需求。计算机视觉、多模态学习领域的研究者,以及关注模型评估方法的研究人员都应该阅读这篇论文。
觉得有用?分享给更多人
觉得有用?分享给更多人
本文提出LPM 1.0(大型表演模型),通过构建多模态人类中心数据集和训练17B参数的扩散变换器,实现了单人多工音频-视觉对话表演。该模型在保持身份一致性的同时,能够实时生成无限长度的表演视频,在LPM-Bench基准测试中取得最优结果。这项工作为对话代理、直播角色和游戏NPC提供了视觉引擎,解决了现有视频模型在表现力、实时推理和长期身份稳定性之间的三难困境。
本文提出了KnowU-Bench,一个面向个性化移动智能体的在线评测基准,通过可复现的Android仿真环境,覆盖42项通用GUI任务、86项个性化任务和64项主动任务。实验发现,即使前沿模型在需要用户偏好推断或干预校准的模糊指令下,性能也降至50%以下,揭示了界面操作能力与可信赖个人助手之间的根本差距。该工作填补了现有评测无法捕捉交互式偏好获取和主动决策链的空白。