通过简单统一缩放实现金牌级奥赛推理

深度2026年5月20日42 分钟阅读

本文的核心发现是：通过简单的逆向困惑度课程SFT和两阶段强化学习，可以让模型在数理化奥赛上达到金牌水平，且推理轨迹可长达10万token以上。对于关注大模型推理能力、强化学习在数学科学中的应用的研究者和工程师尤为重要。

本文编译自 Achieving Gold-Medal-Level Olympiad Reasoning via Simple and Unified Scaling，版权归原作者所有。

觉得有用？分享给更多人

获取每周 AI 工具精选

工具推荐、实战教程和生态洞察，每周更新。

关注 @skillnav_dev →阅读周刊

北大研究：AI编码助手并未挤出开源新人，但维护者压力飙升

北京大学对1888个GitHub仓库的研究显示，AI编码助手并未挤出开源项目的新人，但维护者的工作量显著增加，PR数量翻近四倍，代码复杂度小幅上升。

深度The New Stack·7月6日·5 分钟

Vercel CEO：模型与智能体的“拆伙”之战

Vercel CEO Guillermo Rauch 接受 TechCrunch 采访，讨论了智能体在生产环境中的现实挑战：数据安全、审计追踪、工具调用权限。他提出模型与智能体应解耦，Vercel 的 Eve 框架和 Sandbox 产品旨在提供灵活的“插拔”架构。同时他观察到，谷歌 Gemini、DeepSeek 等模型因性价比而崛起，客户正从单一模型合作伙伴转向多模型策略。

深度·7月6日·6 分钟

通过简单统一缩放实现金牌级奥赛推理

相关文章

北大研究：AI编码助手并未挤出开源新人，但维护者压力飙升

Vercel CEO：模型与智能体的“拆伙”之战

评论