Runpod 报告:Qwen 超越 Llama 成最常用自托管 LLM

深度The New Stack2026年3月12日4 分钟阅读
Runpod 报告:Qwen 超越 Llama 成最常用自托管 LLM
Runpod 的 AI 状态报告基于 50 万开发者的匿名部署日志,发现 Qwen 已取代 Llama 成为最常用的自托管大语言模型。数据显示,AI 优化任务消耗的 GPU 时间已超过原始内容生成。

智能体 AI 服务的兴起让企业技术市场迎来了一套成熟的自动化和加速工具,几乎能应用到所有行业。这是行业领袖、AI 布道者甚至政客们常说的套话。

基础设施专家 Runpod 看到的现实略有不同,这或许能帮开发者看清哪些 AI 工具和服务真正被用起来了。

Runpod 本身是一个为 AI 打造的 GPU 实例平台,提供按需 Pod、自动扩展的无服务器端点和即时集群服务,用来跑分布式训练任务。

正因如此,Runpod 能监测到 AI 工作负载背后的“原始基础设施排放量”,从而了解哪些模型真正被部署了。它还能判断模型是用于推理、微调还是训练,识别选用的 GPU 类型以及工作负载的来源地。

匿名无服务器部署日志

Runpod 的 AI 状态报告不依赖基准测试、问卷调查或人工评估排行榜。这份分析基于平台上的匿名无服务器部署日志,Runpod 称其目前服务全球超过 50 万开发者。

Runpod 数据负责人 Charlotte Daniels 在博客中写道:“我们构建了内部流水线来大规模分类模型使用情况,对生产日志进行基于 LLM 的分析,将工作负载映射到 GPU 选择模式,并利用 IP 情报了解地理分布。结果不是道听途说,而是行为数据。”

与公开叙事相矛盾

这份关于 AI 工作负载实际生产情况的记录,与一些大品牌的宣传机器并不一致。Runpod 表示,这“在现实层面与大量公开叙事相矛盾”。

其中一个现实检验是:现在最常用的自托管 LLM 是 Qwen,而不是 Llama。由阿里云创建和开发的 Qwen 是一个系列,以其复杂的推理能力闻名,能同时处理文本、音频和视觉应用模态。

“更惊人的是,Llama 4 的采用率几乎为零。生态系统并未发生有意义的迁移……开发者优先考虑的是每美元性能、延迟、兼容性和微调生态。”

尽管 Qwen 功能强大(并且对多模态应用有明显吸引力),Runpod 指出,Qwen 的声量显然低于 Meta 在基准测试X(原 Twitter)讨论会议幻灯片中推广 Llama 的能力。

Daniels 写道:“更惊人的是:Llama 4 的采用率几乎为零。尽管有发布报道和关注,生态系统并未发生有意义的迁移。AI 软件工程市场很务实。它优先考虑每美元性能、延迟、兼容性和微调生态。”

渲染杀死了视频明星

整个 AI 领域中另一个新兴领域是视频。那些旨在为模型发布和产品演示等用例生成文本到视频电影级演示的服务曾令人惊叹。Synthesia、Runway 和 CraftStory 等供应商出现在这个领域,承诺能在几分钟内创建电影级 AI 视频。

如果这个概念真像这些技术专业组织所承诺的那样全面运作,那么原始基础设施排放量将显示出广泛的扩展。

这意味着 AI 视频测试用例会被原型化,开发者会欣喜若狂点更多披萨,部署会扩展以容纳更多空间……团队推进项目长片版本的速度,会比马丁·斯科塞斯和罗伯特·德尼罗喝醉重聚午餐还快。

Daniels 解释道:“生产行为讲述了一个不同的故事:扩展工作负载的数量大约是生成的两倍。团队并非把所有赌注都押在一次昂贵的渲染上;相反,他们快速生成低分辨率草稿,选出优胜者,然后将算力分配给增强。先掷骰子,再精修。”

这一切揭示了一个关于 AI 数据中心资源资本分配的真相。简单说:优化任务比原始创作消耗了更多的 GPU 时间。

聚焦 ComfyUI

对于图像任务,Runpod 表示 ComfyUI 已成为“图像生成的事实标准”,以其基于节点的方法驱动了超过三分之二的图像端点。该公司关于此主题的完整报告指出,这种主导地位“反映了更广泛的转变”,即转向模块化、可定制的流水线,而非简单的文本到图像调用。

Runpod 给开发者的建议是:如果你在构建图像生成工作流,投资 ComfyUI 专业知识越来越必要,因为生态系统已经汇聚于此。

从大局来看,这份分析指出,使用 Runpod AI 基础设施的组织中,近三分之二来自纯 AI 服务之外的行业。或许不出所料,HealthTech 和 FinTech 在企业垂直领域中领先。

结论似乎比那些承诺易于部署、一键式 AI 服务的警报流要平淡得多。相反,原始基础设施排放量显示,生产级 AI 使用模式正围绕性能、效率和工作流控制进行整合。

觉得有用?分享给更多人

获取每周 AI 工具精选

工具推荐、实战教程和生态洞察,每周更新。

相关文章

Simon Willison 正在重构 LLM Python 库的抽象层,以支持服务器端工具执行等新功能。他利用 Claude Code 分析了四大 LLM 提供商的客户端库,生成了用于测试的 curl 命令和 JSON 输出。这些调研材料已开源,旨在帮助设计更通用的 API 抽象。

深度Simon Willison·4月5日·1 分钟

智能体技能——包含程序性知识和可执行资源的结构化包,供智能体在推理时动态加载——已成为增强 LLM 智能体的可靠机制。然而,推理时技能增强存在根本性限制:检索噪声引入无关指导,注入的技能内容带来大量 token 开销,而模型从未真正习得它所遵循的知识。我们提出一个问题:技能是否可以被内化到模型参数中,使其在无需任何运行时技能检索的情况下实现零样本自主行为?我们提出 Skill0,一个专为技能内化设计的上下文强化学习框架。Skill0 引入了一种训练时课程,从提供完整技能上下文开始,逐步撤除。技能按类别离线分组,并与交互历史一起渲染为紧凑的视觉上下文,教授模型工具调用和多轮任务完成。动态课程机制…

深度·4月5日·17 分钟

评论