Aurora 优化器:解决 Muon 神经元死亡问题,训练效率提升 100 倍
深度2026年5月10日5 分钟阅读

Muon 优化器在训练大型语言模型时,其更新会导致 MLP 层中的神经元永久死亡。Tilde Research 提出的新优化器 Aurora,通过联合约束行范数均匀性和正交性,在 1.1B 模型上实现了 100 倍的数据效率提升,并刷新了 nanoGPT 速度跑榜的 SOTA。
本文编译自 Aurora: A Leverage-Aware Optimizer for Rectangular Matrices,版权归原作者所有。
觉得有用?分享给更多人