Google 的 Decoupled DiLoCo：让 AI 训练跨数据中心更抗造

深度2026年4月22日4 分钟阅读

训练大模型时，一个芯片故障就可能导致整个训练停滞。Google 的新架构 Decoupled DiLoCo 通过将训练拆分为多个“孤岛”，实现了异步训练，即使部分硬件失效，系统也能继续高效运行，且性能不降。在跨 4 个美国区域的测试中，该架构仅需 2-5 Gbps 带宽，训练速度比传统同步方法快 20 倍。

本文编译自 Decoupled DiLoCo: A new frontier for resilient, distributed AI training，版权归原作者所有。

觉得有用？分享给更多人

获取每周 AI 工具精选

工具推荐、实战教程和生态洞察，每周更新。

关注 @skillnav_dev →阅读周刊