MegaStyle:构建多样化可扩展风格数据集

深度2026年4月9日37 分钟阅读
研究发现保持风格内一致性和风格间多样性对数据集质量至关重要,训练得到的模型能可靠测量风格相似度并实现泛化风格迁移。计算机视觉、生成式AI和风格迁移领域的研究者值得关注这项成果。

觉得有用?分享给更多人

获取每周 AI 工具精选

工具推荐、实战教程和生态洞察,每周更新。

相关文章

本文提出LPM 1.0(大型表演模型),通过构建多模态人类中心数据集和训练17B参数的扩散变换器,实现了单人多工音频-视觉对话表演。该模型在保持身份一致性的同时,能够实时生成无限长度的表演视频,在LPM-Bench基准测试中取得最优结果。这项工作为对话代理、直播角色和游戏NPC提供了视觉引擎,解决了现有视频模型在表现力、实时推理和长期身份稳定性之间的三难困境。

深度·4月13日·54 分钟

本文提出了KnowU-Bench,一个面向个性化移动智能体的在线评测基准,通过可复现的Android仿真环境,覆盖42项通用GUI任务、86项个性化任务和64项主动任务。实验发现,即使前沿模型在需要用户偏好推断或干预校准的模糊指令下,性能也降至50%以下,揭示了界面操作能力与可信赖个人助手之间的根本差距。该工作填补了现有评测无法捕捉交互式偏好获取和主动决策链的空白。

深度·4月13日·27 分钟

评论