Google 的 Decoupled DiLoCo:让 AI 训练跨数据中心更抗造
深度2026年4月22日4 分钟阅读
训练大模型时,一个芯片故障就可能导致整个训练停滞。Google 的新架构 Decoupled DiLoCo 通过将训练拆分为多个“孤岛”,实现了异步训练,即使部分硬件失效,系统也能继续高效运行,且性能不降。在跨 4 个美国区域的测试中,该架构仅需 2-5 Gbps 带宽,训练速度比传统同步方法快 20 倍。
觉得有用?分享给更多人
觉得有用?分享给更多人
AWS FinOps Agent 进入公开预览,可通过自然语言查询成本、自动调查异常并创建 Jira 工单或 Slack 通知。权限以只读为主,构建于 Bedrock 之上,目前仅在美国东部区域可用。
Anthropic 暂停了 Claude Agent SDK 的计费变更,该变更原定于 6 月 15 日生效,旨在将 Agent SDK 使用量从通用订阅额度中分离出来并单独计费。此举是在美国政府要求 Anthropic 撤下 Fable 5 和 Mythos 5 模型之后做出的,意在安抚开发者群体。