LPM 1.0:基于视频的角色表演模型
深度2026年4月13日54 分钟阅读
最有趣的发现是LPM 1.0通过多模态条件控制,首次在实时交互中同时实现了高表现力、低延迟和长期身份稳定性。计算机视觉、人机交互和游戏开发领域的研究人员和工程师应该阅读本文,了解如何从视频中学习角色表演并应用于实际交互场景。
本文编译自 LPM 1.0: Video-based Character Performance Model,版权归原作者所有。
觉得有用?分享给更多人
觉得有用?分享给更多人
本文提出了KnowU-Bench,一个面向个性化移动智能体的在线评测基准,通过可复现的Android仿真环境,覆盖42项通用GUI任务、86项个性化任务和64项主动任务。实验发现,即使前沿模型在需要用户偏好推断或干预校准的模糊指令下,性能也降至50%以下,揭示了界面操作能力与可信赖个人助手之间的根本差距。该工作填补了现有评测无法捕捉交互式偏好获取和主动决策链的空白。
本文提出DMax,一种针对扩散语言模型(dLLMs)的高效解码新范式。通过将解码重新定义为从掩码嵌入到词嵌入的渐进自精炼过程,DMax有效缓解了并行解码中的错误累积问题,在保持生成质量的同时实现了激进的解码并行度。实验表明,该方法在GSM8K和MBPP等基准测试中显著提升了吞吐量(TPF提升2-3倍),在H200 GPU上达到平均1338 TPS的推理速度。