KnowU-Bench:迈向交互式、主动化、个性化移动智能体评估

深度2026年4月13日27 分钟阅读
最有趣的发现是:智能体在明确任务执行中表现出色,但在需要推断用户偏好或校准干预的模糊场景下性能骤降,核心瓶颈并非GUI导航,而是偏好获取与干预决策。本文适合移动智能体研究者、人机交互开发者和个性化AI系统设计者阅读。

觉得有用?分享给更多人

获取每周 AI 工具精选

工具推荐、实战教程和生态洞察,每周更新。

相关文章

本文提出LPM 1.0(大型表演模型),通过构建多模态人类中心数据集和训练17B参数的扩散变换器,实现了单人多工音频-视觉对话表演。该模型在保持身份一致性的同时,能够实时生成无限长度的表演视频,在LPM-Bench基准测试中取得最优结果。这项工作为对话代理、直播角色和游戏NPC提供了视觉引擎,解决了现有视频模型在表现力、实时推理和长期身份稳定性之间的三难困境。

深度·4月13日·54 分钟

本文提出DMax,一种针对扩散语言模型(dLLMs)的高效解码新范式。通过将解码重新定义为从掩码嵌入到词嵌入的渐进自精炼过程,DMax有效缓解了并行解码中的错误累积问题,在保持生成质量的同时实现了激进的解码并行度。实验表明,该方法在GSM8K和MBPP等基准测试中显著提升了吞吐量(TPF提升2-3倍),在H200 GPU上达到平均1338 TPS的推理速度。

深度·4月13日·26 分钟

评论