论文
AI 前沿论文中文翻译与导读,覆盖智能体、多模态、具身智能等方向
AI 前沿论文中文翻译与导读,覆盖智能体、多模态、具身智能等方向
本文提出RLSD方法,将自蒸馏与可验证奖励强化学习相结合。通过自蒸馏获取细粒度策略差异指导更新幅度,同时利用环境反馈确保更新方向可靠性,实现了更高的收敛上限和训练稳定性。该方法解决了纯自蒸馏导致的信息泄露问题,为LLM训练提供了更优的混合范式。
本文针对现有多模态大语言模型评估方法的不足,提出了首个过程验证的代理能力基准Agentic-MME。该基准包含418个真实世界任务,通过2000多个逐步检查点评估工具调用与协同能力,实验显示最佳模型在最高难度任务上准确率仅为23.0%,揭示了真实场景多模态代理问题解决的挑战。这项工作为多模态智能向主动代理演进提供了关键评估框架。
本文提出了一种基于ViT令牌而非像素的视角变换方法,通过反向令牌扭曲技术,在多模态大语言模型中实现了对邻近视角的稳定推理。实验证明该方法在ViewBench基准测试中优于像素级扭曲、空间微调模型及生成式扭曲方法,显著提升了模型对视角变化的鲁棒性。
本研究提出GrandCode多智能体强化学习系统,通过协调假设生成、求解、测试生成等模块,结合后训练与在线测试强化学习,首次在Codeforces现场竞赛中连续击败所有人类选手。该系统采用专为多阶段智能体设计的Agentic GRPO算法,解决了延迟奖励与策略偏移问题,标志着AI在最具挑战性的编程任务上超越顶尖人类程序员。
本研究通过创新的双屏拼接采集方法,从AAA游戏中提取了400万帧连续同步的RGB和G-buffer数据,构建了大规模动态数据集。该数据集显著提升了双向渲染能力,支持野外几何与材质分解以及高保真视频生成。同时提出基于视觉语言模型的评估协议,实验表明其能有效提升跨数据集泛化性能并与人类判断高度一致。
本研究提出了一种新型可引导视觉表征方法,通过在视觉编码器中早期融合文本信息,使全局和局部特征能够通过自然语言进行引导。该方法在保持基础表征质量的同时,能够聚焦图像中任意指定对象,并在异常检测和个性化对象识别任务中表现出色,实现了对分布外任务的零样本泛化。
本文提出SimpleStream基线方法,仅使用最近N帧输入现成视觉语言模型,在流式视频理解任务中性能超越现有复杂记忆模型。实验表明,仅用4帧即可在OVO-Bench和StreamingBench上分别达到67.7%和80.59%准确率,揭示了感知与记忆的权衡关系。该研究为流式视频理解提供了简洁有效的评估基准。
本文提出VOID框架,用于在视频中删除物体时保持物理一致性。通过生成配对数据集训练模型,结合视觉语言模型识别受影响区域,指导视频扩散模型生成合理结果。相比现有方法,VOID能更好地处理物体交互场景,为视频编辑提供更真实的世界模拟能力。
本文提出文本频率法则,发现高频文本数据能提升大语言模型在提示与微调中的表现。研究通过在线资源估计句子频率、文本频率蒸馏和课程式训练方法,在数学推理、机器翻译等任务上验证了有效性。这项工作为优化大语言模型训练提供了新的数据频率视角。
本文提出LatentUM,一种在共享语义潜空间中表示所有模态的统一模型,无需像素解码即可实现视觉理解与生成的直接交互。该方法显著提升了计算效率,减轻了编解码偏差,在视觉空间规划基准上达到最优性能,并通过自反思推动视觉生成边界。该工作为密集视觉思维、物理世界建模等跨模态推理任务提供了高效解决方案。
本文系统综述了语言模型中潜在空间的研究进展,将其组织为五个视角:基础、演进、机制、能力与展望。文章揭示了潜在空间作为语言模型原生计算基质的优势,包括克服显式空间的计算限制,并支持推理、规划、建模等广泛能力。该综述为理解潜在空间作为下一代智能的通用计算范式提供了重要参考。
本文提出首个利用近身份干扰项解决视觉编码器身份表示问题的框架,通过构建包含19K身份、316K匹配背景干扰项的NearID数据集,并设计严格边界评估协议。采用两层级对比目标在冻结骨干网络上学习身份感知表示,将样本成功率从30.7%提升至99.2%,显著增强身份区分能力。该研究为个性化生成和图像编辑等任务提供了更可靠的身份评估基准。