推理SFT泛化条件分析:优化、数据与模型能力
深度2026年4月8日18 分钟阅读
最有趣的发现是:推理SFT的泛化呈现“先降后升”模式,强模型能从简单算术游戏中学习回溯等可迁移推理策略。本文适合研究LLM推理能力、模型微调和泛化机制的研究人员阅读。
本文编译自 Rethinking Generalization in Reasoning SFT: A Conditional Analysis on Optimization, Data, and Model Capability,版权归原作者所有。
觉得有用?分享给更多人