IBM 等向 CNCF 捐赠 Kubernetes LLM 推理框架

深度The New Stack2026年3月24日4 分钟阅读
IBM 等向 CNCF 捐赠 Kubernetes LLM 推理框架
IBM、红帽和谷歌将开源框架 llm-d 捐赠给 CNCF,这是一个基于 Kubernetes 的分布式推理框架,旨在让大语言模型推理成为云原生的一等公民。

Kubernetes 和 AI 的结合在 llm-d 中实现了。这是一个可复制的 Kubernetes 蓝图,用于在任何模型、任何加速器、任何云上部署推理堆栈。

在阿姆斯特丹举行的 KubeCon Europe 2026 上,IBM Research、红帽和谷歌云宣布将他们的开源分布式推理框架 llm-d 捐赠给云原生计算基金会(CNCF),作为一个沙盒项目。

这一举措得到了创始合作方 NVIDIA、CoreWeave 以及 AMD、Cisco、Hugging Face、Intel、Lambda 和 Mistral AI 的支持,确立了 llm-d 作为可扩展、厂商中立的大语言模型(LLM)推理的社区治理蓝图。

llm-d 于 2025 年推出,旨在使大规模服务基础模型变得可预测、可移植且云原生。它将推理从一个即兴的、逐个模型解决的挑战,转变为一个可复制的、生产级的基于 Kubernetes 的系统。llm-d 由 Neural Magic 创建,该公司于 2025 年被红帽收购。IBM Research 杰出工程师 Carlos Costa 在 KubeCon 主题演讲中表示,IBM 的目标是“让大规模模型服务成为一等云原生工作负载”。

llm-d 是什么

具体来说,llm-d 是一个开源的、Kubernetes 原生的框架,用于将大语言模型推理作为分布式、生产级的工作负载运行。这意味着:

  • llm-d 将 LLM 服务转变为分布式系统:它将推理拆分为预填充和解码阶段(解耦),并在不同的 Pod 上运行它们。这意味着你可以独立扩展和调整每个阶段。
  • 它增加了一个 LLM 感知的路由和调度层。这是通过一个网关扩展实现的,该扩展基于 KV 缓存状态、Pod 负载和硬件特性来路由请求,以改善延迟和吞吐量。
  • 最后,它在 Kubernetes 之上提供了一个模块化堆栈,使用 vLLM 作为推理网关,以及相关组件,为你提供一个可重用的“任何模型、任何加速器、任何云”的蓝图。

从概念上讲,vLLM 充当快速推理引擎,而 llm-d 则提供操作层,让你可以在 GPU/TPU 集群上运行该引擎,并配有智能调度、缓存感知路由以及为 LLM 流量而非通用 HTTP 工作负载调整的自动扩缩。

更快更便宜的推理

前 Neural Magic CEO、现任红帽高级副总裁兼 AI CTO 的 Brian Stevens 在新闻发布会上表示:“我们做了很多工作来引入新的加速器。TPU、AMD、Nvidia 以及一长串其他加速器。我们真的希望看到它们有进入的途径。这样,就像 Linux 一样,你可以运行任何硬件、任何应用程序,使用 BLM,任何模型,任何加速器。”

这比旧的推理运行方式更快、更便宜。谷歌云的早期测试显示,对于代码补全等用例,“首令牌时间提高了 2 倍”,从而实现响应更快的应用程序。这是因为传统的自动扩缩器、通用 API 和请求路由并非为有状态的推理工作负载设计,这些工作负载依赖于高效的 KV 缓存管理、预填充/解码编排和异构加速器。

llm-d 直接解决了这些问题。它引入了前缀缓存感知路由和预填充/解码解耦,允许推理阶段独立扩展。它支持跨 GPU、CPU 和存储层的分层缓存卸载,从而支持更大的上下文窗口而不会使加速器内存过载。

其流量和硬件感知的自动扩缩器动态适应工作负载模式,而不是依赖基本的利用率指标。它还设计为与新兴的 Kubernetes API(如 Gateway API Inference Extension (GAIE) 和 LeaderWorkerSet (LWS))协同工作。这三者共同旨在使分布式推理成为 Kubernetes 的一等工作负载。

从实验到生产的“明路”

该项目的贡献者将 llm-d 描述为组织从实验转向生产的“明路”。“我们为你测试了这个。我们进行了基准测试。我们经历了痛苦,”Costa 说。该框架提供了可重复的基准测试、经过验证的部署模式以及跨主要加速器系列(从 Nvidia GPU 到谷歌 TPU,再到 AMD 和 Intel 硬件)的兼容性。

IBM Research 的 AI 平台副总裁 Priya Nagpurkar 在 llm-d 主题演讲中强调,推理现在需要与 Kubernetes 为微服务带来的相同的操作成熟度。“你需要 Kubernetes 为上一个时代提供的规模、分布和可靠性,同时要认识到这是一个非常不同的工作负载。”

通过将 llm-d 贡献给 CNCF,IBM 及其合作伙伴押注 AI 推理将很快成为云原生堆栈的基础,就像 Prometheus 或 Envoy 一样。

IBM 认为此次捐赠对于标准化分布式推理的部署和管理至关重要。“CNCF 正在成为 AI 基础设施的家园,”Costa 说。“这是通用模式、API 和治理汇聚的地方,以便每个人都在同一个剧本上构建。”

未来展望

展望未来,llm-d 的下一个开发周期将专注于扩展其在多模态工作负载、HuggingFace 多 LoRA 优化以及与 vLLM 更深层次集成方面的能力。具体来说,Mistral AI 已经在贡献代码,以推进围绕解耦服务的开放标准。

IBM Research 将继续探索推理和训练的交集,包括强化学习和自优化 AI 基础设施。正如 Costa 所说:“创建一个共同的基础堆栈让生态系统专注于推动 AI 向前发展,而不是重建基础。”随着 CNCF 成为其新家,llm-d 有望成为云原生 AI 时代的基石。

觉得有用?分享给更多人

获取每周 AI 工具精选

工具推荐、实战教程和生态洞察,每周更新。

相关文章

Simon Willison 正在重构 LLM Python 库的抽象层,以支持服务器端工具执行等新功能。他利用 Claude Code 分析了四大 LLM 提供商的客户端库,生成了用于测试的 curl 命令和 JSON 输出。这些调研材料已开源,旨在帮助设计更通用的 API 抽象。

深度Simon Willison·4月5日·1 分钟

智能体技能——包含程序性知识和可执行资源的结构化包,供智能体在推理时动态加载——已成为增强 LLM 智能体的可靠机制。然而,推理时技能增强存在根本性限制:检索噪声引入无关指导,注入的技能内容带来大量 token 开销,而模型从未真正习得它所遵循的知识。我们提出一个问题:技能是否可以被内化到模型参数中,使其在无需任何运行时技能检索的情况下实现零样本自主行为?我们提出 Skill0,一个专为技能内化设计的上下文强化学习框架。Skill0 引入了一种训练时课程,从提供完整技能上下文开始,逐步撤除。技能按类别离线分组,并与交互历史一起渲染为紧凑的视觉上下文,教授模型工具调用和多轮任务完成。动态课程机制…

深度·4月5日·17 分钟

评论