Google 的 Decoupled DiLoCo:让 AI 训练跨数据中心更抗造
深度2026年4月22日4 分钟阅读
训练大模型时,一个芯片故障就可能导致整个训练停滞。Google 的新架构 Decoupled DiLoCo 通过将训练拆分为多个“孤岛”,实现了异步训练,即使部分硬件失效,系统也能继续高效运行,且性能不降。在跨 4 个美国区域的测试中,该架构仅需 2-5 Gbps 带宽,训练速度比传统同步方法快 20 倍。
觉得有用?分享给更多人
觉得有用?分享给更多人
OpenAI 与微软修改协议取消独家授权后,AWS 火速在 Bedrock 上架 OpenAI 最新模型、Codex 和全新智能体服务 Bedrock Managed Agents。亚马逊称这标志着“更深层次合作的开始”,而微软则转向 Anthropic 和 Claude 驱动的智能体产品。
SAS 发布 Viya MCP Server,通过 Model Context Protocol 将分析能力开放给 Claude、Copilot 等任意 AI Agent。同时推出的还有 Agentic AI Accelerator、营销多智能体系统及供应链智能体,背后是行业专有模型和治理平台 AI Navigator。