论文
AI 前沿论文中文翻译与导读,覆盖智能体、多模态、具身智能等方向
AI 前沿论文中文翻译与导读,覆盖智能体、多模态、具身智能等方向
本研究针对德语语言模型,提出基于质量过滤的高信号数据筛选方法。实验表明,在过滤后的高质量子集上多次训练(多轮次)优于在更大但低质量语料上的单轮训练,即使训练token量减少10-360倍仍能达到最优性能。这为非英语LLM的高效训练提供了新路径。
本文提出ARIS,一个通过跨模型对抗性协作协调机器学习研究流程的开源研究框架。系统引入执行器与评审器对抗协作机制,结合三层架构(执行层、编排层、保障层)确保研究可重复性与结果可靠性。实验表明,该框架能有效降低长期研究流程中的虚假成功风险,提升产出质量。
本文发现扩散概率模型在推理阶段存在SNR-t偏差,即去噪样本的信噪比与时间步长不对齐,导致误差累积和生成质量下降。作者提出了一种简单有效的差分校正方法,将样本分解为不同频率分量并分别校正,显著提升了多种扩散模型在各类数据集上的生成质量,且计算开销极小。该研究为提升扩散模型的生成性能提供了新思路。
本研究开发了OpenFOAMGPT,一个基于大语言模型的智能体,专门用于OpenFOAM计算流体动力学模拟。该智能体结合GPT-4o和o1预览模型,通过检索增强生成技术嵌入领域知识,成功处理了从零样本案例设置到复杂边界条件修改等多种任务。这一框架能够显著加速CFD模拟流程,对基础研究和工业应用均有重要价值。
本文提出GameWorld基准,用于标准化评估多模态大语言模型作为通用游戏智能体的性能。研究包含34款游戏和170项任务,结果表明当前最佳智能体与人类游戏能力仍有巨大差距。该基准为多模态游戏智能体研究提供了可验证、可复现的评估框架。
本研究提出了SpatialEvo框架,利用确定性几何环境(DGE)实现三维空间推理的自进化学习。该方法通过几何验证规则将未标注3D场景转化为零噪声交互式数据源,避免了传统自进化方法中模型误差自我强化的问题。实验表明,SpatialEvo在多个基准测试中取得了最佳性能,为具身智能的空间推理能力提升提供了新路径。
Seedance 2.0采用统一高效的大规模多模态音视频联合生成架构,支持文本、图像、音频、视频四种输入模态,在视频和音频生成的关键维度上实现全面提升。该模型在专家评估和公开测试中达到领域领先水平,为终端用户带来增强的创作体验。
RoundPipe提出了一种打破权重绑定约束的新型流水线调度方案,将GPU视为无状态工作节点池,以轮询方式动态分配计算阶段,实现近乎零气泡的流水线。在8×RTX 4090服务器上,微调1.7B至32B模型时获得1.48-2.16倍加速,并能在单机上对Qwen3-235B模型进行LoRA微调。该方法显著提升了消费级GPU上大语言模型的训练效率,降低了硬件门槛。
本文提出ClawGym框架,涵盖Claw风格个人智能体开发全生命周期。通过合成13.5K筛选任务、训练ClawGym-Agents模型(监督微调+强化学习),并构建200实例的基准ClawGym-Bench,验证了框架的有效性和可扩展性。
UniVidX是一种统一的视频生成框架,利用视频扩散先验处理多种像素对齐任务。通过随机条件遮掩、解耦门控LoRA和跨模态自注意力机制,该框架在少于1000个视频的训练数据下,实现了与现有专有模型相当的性能,并具有很强的泛化能力。
人形机器人控制面临交互行为建模难的问题,本文提出ExoActor框架,利用大规模视频生成模型生成第三视角视频,进而转化为可执行的人形行为。该方法无需额外数据即可泛化到新场景,为交互丰富的人形行为提供了新路径。
本文提出Eywa框架,通过语言模型推理接口增强领域特定基础模型,使其能够参与智能体系统的高层推理决策。实验表明,Eywa在物理、生命和社会科学任务上提升了结构化数据性能,减少了对语言推理的依赖。