Lance:多任务协作的统一多模态建模
深度2026年5月20日37 分钟阅读
本文提出Lance,一种不依赖大模型或文本-图像主导设计的统一多模态模型,通过多任务协同训练实现轻量化。其核心创新在于双路混合专家架构与模态感知位置编码,有效平衡理解与生成任务。适合多模态AI研究者、关注高效统一模型开发的从业者阅读。
本文编译自 Lance: Unified Multimodal Modeling by Multi-Task Synergy,版权归原作者所有。
觉得有用?分享给更多人
觉得有用?分享给更多人
ThoughtTrace是首个大规模数据集,记录了用户与AI对话中的自述想法(发送提示的原因及对回复的反应),包含1,058名用户、2,155次对话及10,174条想法标注。分析表明,想法与消息语义不同,大模型难以从上下文推断,并能提升用户行为预测和个性化助手训练质量。该数据集为理解人机交互中的认知动态提供了新模态。
本文提出HASP框架,将智能体技能升级为可执行程序函数,在推理时或训练后主动干预智能体循环。在网页搜索、数学推理和编程任务上,HASP相比现有方法提升25%-30%性能,揭示了技能内化与稳定演化的机制。