AI自动科研:路线图与使用指南

深度2026年5月20日148 分钟阅读
最有趣的发现是AI在自动化过程中可能隐藏而非消除错误,人类监督的协作模式最为可靠。适合AI研究者、科研管理人员和关注科研诚信的学者阅读。
本文编译自 AI for Auto-Research: Roadmap & User Guide,版权归原作者所有。

觉得有用?分享给更多人

获取每周 AI 工具精选

工具推荐、实战教程和生态洞察,每周更新。

相关文章

本文提出SDAR方法,将在线策略自蒸馏(OPSD)作为门控辅助目标与强化学习(RL)主优化相结合,解决了多轮智能体训练中OPSD的不稳定性问题。在ALFWorld、WebShop和Search-QA任务上,SDAR相比GRPO分别提升了9.4%、10.2%和7.0%的性能,并避免了朴素GRPO+OPSD的波动性。

深度·5月20日·30 分钟

本文提出KVPO,一种ODE原生的在线GRPO框架,用于对齐自回归视频生成器与人类偏好。通过因果语义探索技术将随机噪声替换为历史KV缓存扰动,并引入基于轨迹速度能量的速度场替代策略,实现了在流匹配速度空间中与原ODE公式一致的奖励加权对比目标。实验表明,该方法在多个蒸馏AR视频生成器上显著提升了视觉质量、运动质量和文本-视频对齐。

深度·5月20日·24 分钟

评论