论文
AI 前沿论文中文翻译与导读,覆盖智能体、多模态、具身智能等方向
AI 前沿论文中文翻译与导读,覆盖智能体、多模态、具身智能等方向
本文首次全面综述了大型基础模型中的视听智能(AVI),建立了统一的分类体系,涵盖了理解、生成和交互三类任务。文章整合了方法论基础、数据集、基准测试和评估指标,并指出了同步、空间推理、可控性和安全性等开放挑战,为未来大规模AVI研究提供了基础性参考。
本文提出SenseNova-U1,一种基于NEO-unify架构的原生统一多模态范式,将理解与生成视为单一过程的协同视图。该模型在文本理解、视觉感知、知识推理等任务上媲美顶级理解专用VLM,同时在图像生成、图文交互相成等任务中表现出色,并展现了在视觉-语言-动作及世界模型场景中的潜力。
本文提出δ-mem,一种轻量级记忆机制,通过一个紧凑的在线关联记忆状态为冻结的完整注意力骨干网络增强记忆能力。该状态使用delta规则学习更新,在生成时产生低秩校正以调整注意力计算。仅需8×8的记忆状态,δ-mem在多个基准上平均得分提升至冻结骨干的1.10倍,非记忆基线的1.15倍,尤其在记忆密集型任务上表现显著。
RubricEM提出评分准则不仅是最终评估工具,更是策略执行、评判反馈和智能体记忆的共享接口。通过分阶段策略分解与反思式元策略演化,在四项长程研究基准上,8B参数模型性能超越同类开源模型,接近专有深度研究系统。
本文提出世界动作模型(WAMs)这一新兴范式,将世界模型与视觉-语言-动作(VLA)模型融合,统一预测状态建模与动作生成。通过系统梳理现有方法,构建了级联和联合两类WAMs的分类体系,并从数据生态、评估协议等角度全面分析,指出该领域的关键架构权衡与未来方向。
作者提出DRoRAE方法,通过轻量融合模块自适应聚合视觉编码器的中间层特征,而非仅用最后一层。在ImageNet-256上,重建rFID从0.57降至0.29,生成FID从1.74提升至1.65,并发现融合容量与重建质量的对数线性缩放定律。
本文提出ToolCUA,一种端到端智能体,通过分阶段训练范式学习在混合行动空间中选择最优的图形界面与工具路径。在OSWorld-MCP基准上达到46.85%的准确率,相较基线提升约66%,并超越纯图形界面设置3.9%,验证了混合行动空间训练的有效性。
本文提出潜空间到像素空间(L2P)迁移范式,利用预训练潜扩散模型的中间层知识,仅训练浅层网络实现高效像素生成。该方法无需真实数据,仅使用潜扩散模型生成的合成图像,8块GPU即可完成训练,并支持原生4K超高清生成。实验表明,L2P在极小训练开销下达到与源模型相当的性能。
Flow-OPD提出首个统一在线策略蒸馏框架,用于流匹配文本到图像模型的后训练对齐。通过两阶段策略和流式冷启动方案,将多个单奖励教师模型的知识蒸馏到单个学生模型中,并引入流形锚点正则化防止美学退化。在SD3.5 Medium上,GenEval分数从63提升至92,OCR准确率从59提升至94,实现了超越教师的效果。
MemPrivacy提出了一种在边缘设备上识别敏感词、替换为结构化占位符,再在云端处理记忆、本地恢复原始值的方法,实现了隐私保护与记忆效用的平衡。在覆盖200用户、5.2万隐私实例的基准测试中,该方法在隐私提取上超越GPT-5.2和Gemini-3.1-Pro,并将效用损失控制在1.6%以内。这项工作为边缘-云环境中安全性、实用性和用户透明度的部署提供了新思路。
提出Skill1框架,通过单一任务奖励信号协同进化技能选择、使用和蒸馏三种能力。在ALFWorld和WebShop上优于现有方法,验证了协同进化机制的有效性。
Cola DLM 提出了一种层次化潜在扩散语言模型,通过文本VAE学习稳定的文本到潜在映射,利用块因果DiT在连续空间中建模全局语义先验,最后通过条件解码生成文本。实验表明,该模型在8个基准测试中与约2B参数的GPT-2和LLaDA基线相当或更优,且具有良好的扩展性,为非自回归文本生成提供了新范式。