论文
AI 前沿论文中文翻译与导读,覆盖智能体、多模态、具身智能等方向
AI 前沿论文中文翻译与导读,覆盖智能体、多模态、具身智能等方向
本文揭示了在线策略蒸馏(OPD)的高效性源于其“预见性”——在训练早期就建立稳定的更新轨迹。作者从模块分配和更新方向两个层面验证了这一发现,并提出了加速方法EffOPD,实现3倍训练加速且保持性能。
本文提出一种简单统一的配方,将后训练的推理骨干转化为严格的奥赛级别求解器。通过逆向困惑度课程SFT和两阶段RL pipeline,训练出的SU-01模型在IMO、USAMO、IPhO等竞赛中达到金牌水平,轨迹可超过10万token,并展现出对数学物理以外领域的科学推理泛化能力。
本文提出因果强制++(Causal Forcing++),一种可扩展的少步自回归(AR)扩散蒸馏方法,用于实时交互视频生成。通过引入因果一致性蒸馏(causal CD)来初始化少步AR学生模型,无需预计算完整PF-ODE轨迹,在帧级2步设置下超越现有最先进的4步块级方法,VBench总分数提升0.1,推理延迟降低50%,训练成本减少约4倍。该方法进一步拓展到动作条件世界模型生成,为实时交互视频生成提供了高效解决方案。
本文提出CoRD框架,通过基于困惑度评分和束搜索的逐步推理合成,实现异构大模型协作生成高质量推理轨迹。实验表明,CoRD能以更少的监督信号达到接近教师水平的学生性能,并泛化至域外和开放场景。
本文系统分析了AI在研究全生命周期中的应用,包括创意生成、写作、验证和传播四个阶段。研究发现AI在结构化、检索和工具辅助任务中表现可靠,但在真正新颖的创意和科学判断上仍不可靠,全自动系统尚未达到顶级会议水平。最后提供了分类体系、基准测试和实用指南。
本文提出HarnessAudit框架,用于审计LLM智能体执行轨迹的边界合规性、执行保真度和系统稳定性。通过构建包含210个任务的基准测试,发现任务完成率与安全执行不一致,且多智能体协作扩大了安全风险面。研究表明,框架设计设定了安全部署的上限,填补了输出级评估无法检测中间轨迹违规的空白。
PhysBrain 1.0提出了一种新方法,通过将大规模人类第一人称视频转换为结构化物理常识监督,训练视觉-语言模型,进而迁移到机器人策略。在多项多模态问答和具身控制基准测试中达到最优结果,尤其在域外场景中表现突出,表明人类交互视频可有效桥接多模态理解与机器人控制。
本文揭示了基于组的策略梯度优化方法具有共同的几何结构:隐式定义响应单纯形上的目标分布并通过一阶近似进行投影。为此,提出列表策略优化(LPO),通过将近端RL目标限制在响应单纯形上并执行精确散度最小化,显式进行目标投影。LPO在多样推理任务和LLM骨干上相比典型策略梯度基线持续提升训练性能,同时保持优化稳定性和响应多样性。
本文提出AutoTTS框架,将测试时缩放策略的发现过程自动化,通过构建控制空间和提供廉价反馈的环境,无需手动设计启发式规则。在数学推理基准上,自动发现的策略在准确率-成本权衡上超越手工基线,且仅需39.9美元和160分钟。该方法可泛化到未见基准和模型规模,降低了大模型推理优化的门槛。
本文提出MACE-Dance框架,通过级联混合专家模型(MoE)同时优化舞蹈动作生成与外观合成。运动专家采用BiMamba-Transformer混合架构和免引导训练策略,在3D舞蹈生成中达到最优;外观专家通过解耦的运动-美学微调策略,在姿态驱动动画上刷新记录。该工作为音乐驱动舞蹈视频生成提供了高性能解决方案。
HumanNet 是一个包含一百万小时人体活动视频的大规模语料库,涵盖第一人称和第三人称视角、细粒度动作、物体交互及长期行为,并提供丰富的交互注释。实验表明,使用 HumanNet 中的 1000 小时第一人称视频进行持续训练,效果优于使用 100 小时真实机器人数据,证明人体视频可成为机器人数据的可扩展替代方案。
本文提出 CoREB,一个抗污染、多任务的代码检索与重排序基准,涵盖文本到代码、代码到文本、代码到代码三个任务。实验发现短关键词查询导致所有模型性能崩溃,而微调的 CoREB-Reranker 首次在所有任务上取得一致提升,弥补了现有研究忽视重排序环节的缺陷。