IBM 等向 CNCF 捐赠 Kubernetes LLM 推理框架

Kubernetes 和 AI 的结合在 llm-d 中实现了。这是一个可复制的 Kubernetes 蓝图,用于在任何模型、任何加速器、任何云上部署推理堆栈。
在阿姆斯特丹举行的 KubeCon Europe 2026 上,IBM Research、红帽和谷歌云宣布将他们的开源分布式推理框架 llm-d 捐赠给云原生计算基金会(CNCF),作为一个沙盒项目。
这一举措得到了创始合作方 NVIDIA、CoreWeave 以及 AMD、Cisco、Hugging Face、Intel、Lambda 和 Mistral AI 的支持,确立了 llm-d 作为可扩展、厂商中立的大语言模型(LLM)推理的社区治理蓝图。
llm-d 于 2025 年推出,旨在使大规模服务基础模型变得可预测、可移植且云原生。它将推理从一个即兴的、逐个模型解决的挑战,转变为一个可复制的、生产级的基于 Kubernetes 的系统。llm-d 由 Neural Magic 创建,该公司于 2025 年被红帽收购。IBM Research 杰出工程师 Carlos Costa 在 KubeCon 主题演讲中表示,IBM 的目标是“让大规模模型服务成为一等云原生工作负载”。
llm-d 是什么
具体来说,llm-d 是一个开源的、Kubernetes 原生的框架,用于将大语言模型推理作为分布式、生产级的工作负载运行。这意味着:
- llm-d 将 LLM 服务转变为分布式系统:它将推理拆分为预填充和解码阶段(解耦),并在不同的 Pod 上运行它们。这意味着你可以独立扩展和调整每个阶段。
- 它增加了一个 LLM 感知的路由和调度层。这是通过一个网关扩展实现的,该扩展基于 KV 缓存状态、Pod 负载和硬件特性来路由请求,以改善延迟和吞吐量。
- 最后,它在 Kubernetes 之上提供了一个模块化堆栈,使用 vLLM 作为推理网关,以及相关组件,为你提供一个可重用的“任何模型、任何加速器、任何云”的蓝图。
从概念上讲,vLLM 充当快速推理引擎,而 llm-d 则提供操作层,让你可以在 GPU/TPU 集群上运行该引擎,并配有智能调度、缓存感知路由以及为 LLM 流量而非通用 HTTP 工作负载调整的自动扩缩。
更快更便宜的推理
前 Neural Magic CEO、现任红帽高级副总裁兼 AI CTO 的 Brian Stevens 在新闻发布会上表示:“我们做了很多工作来引入新的加速器。TPU、AMD、Nvidia 以及一长串其他加速器。我们真的希望看到它们有进入的途径。这样,就像 Linux 一样,你可以运行任何硬件、任何应用程序,使用 BLM,任何模型,任何加速器。”
这比旧的推理运行方式更快、更便宜。谷歌云的早期测试显示,对于代码补全等用例,“首令牌时间提高了 2 倍”,从而实现响应更快的应用程序。这是因为传统的自动扩缩器、通用 API 和请求路由并非为有状态的推理工作负载设计,这些工作负载依赖于高效的 KV 缓存管理、预填充/解码编排和异构加速器。
llm-d 直接解决了这些问题。它引入了前缀缓存感知路由和预填充/解码解耦,允许推理阶段独立扩展。它支持跨 GPU、CPU 和存储层的分层缓存卸载,从而支持更大的上下文窗口而不会使加速器内存过载。
其流量和硬件感知的自动扩缩器动态适应工作负载模式,而不是依赖基本的利用率指标。它还设计为与新兴的 Kubernetes API(如 Gateway API Inference Extension (GAIE) 和 LeaderWorkerSet (LWS))协同工作。这三者共同旨在使分布式推理成为 Kubernetes 的一等工作负载。
从实验到生产的“明路”
该项目的贡献者将 llm-d 描述为组织从实验转向生产的“明路”。“我们为你测试了这个。我们进行了基准测试。我们经历了痛苦,”Costa 说。该框架提供了可重复的基准测试、经过验证的部署模式以及跨主要加速器系列(从 Nvidia GPU 到谷歌 TPU,再到 AMD 和 Intel 硬件)的兼容性。
IBM Research 的 AI 平台副总裁 Priya Nagpurkar 在 llm-d 主题演讲中强调,推理现在需要与 Kubernetes 为微服务带来的相同的操作成熟度。“你需要 Kubernetes 为上一个时代提供的规模、分布和可靠性,同时要认识到这是一个非常不同的工作负载。”
通过将 llm-d 贡献给 CNCF,IBM 及其合作伙伴押注 AI 推理将很快成为云原生堆栈的基础,就像 Prometheus 或 Envoy 一样。
IBM 认为此次捐赠对于标准化分布式推理的部署和管理至关重要。“CNCF 正在成为 AI 基础设施的家园,”Costa 说。“这是通用模式、API 和治理汇聚的地方,以便每个人都在同一个剧本上构建。”
未来展望
展望未来,llm-d 的下一个开发周期将专注于扩展其在多模态工作负载、HuggingFace 多 LoRA 优化以及与 vLLM 更深层次集成方面的能力。具体来说,Mistral AI 已经在贡献代码,以推进围绕解耦服务的开放标准。
IBM Research 将继续探索推理和训练的交集,包括强化学习和自优化 AI 基础设施。正如 Costa 所说:“创建一个共同的基础堆栈让生态系统专注于推动 AI 向前发展,而不是重建基础。”随着 CNCF 成为其新家,llm-d 有望成为云原生 AI 时代的基石。
觉得有用?分享给更多人