Runpod 报告:Qwen 超越 Llama 成最常用自托管 LLM

智能体 AI 服务的兴起让企业技术市场迎来了一套成熟的自动化和加速工具,几乎能应用到所有行业。这是行业领袖、AI 布道者甚至政客们常说的套话。
基础设施专家 Runpod 看到的现实略有不同,这或许能帮开发者看清哪些 AI 工具和服务真正被用起来了。
Runpod 本身是一个为 AI 打造的 GPU 实例平台,提供按需 Pod、自动扩展的无服务器端点和即时集群服务,用来跑分布式训练任务。
正因如此,Runpod 能监测到 AI 工作负载背后的“原始基础设施排放量”,从而了解哪些模型真正被部署了。它还能判断模型是用于推理、微调还是训练,识别选用的 GPU 类型以及工作负载的来源地。
匿名无服务器部署日志
Runpod 的 AI 状态报告不依赖基准测试、问卷调查或人工评估排行榜。这份分析基于平台上的匿名无服务器部署日志,Runpod 称其目前服务全球超过 50 万开发者。
Runpod 数据负责人 Charlotte Daniels 在博客中写道:“我们构建了内部流水线来大规模分类模型使用情况,对生产日志进行基于 LLM 的分析,将工作负载映射到 GPU 选择模式,并利用 IP 情报了解地理分布。结果不是道听途说,而是行为数据。”
与公开叙事相矛盾
这份关于 AI 工作负载实际生产情况的记录,与一些大品牌的宣传机器并不一致。Runpod 表示,这“在现实层面与大量公开叙事相矛盾”。
其中一个现实检验是:现在最常用的自托管 LLM 是 Qwen,而不是 Llama。由阿里云创建和开发的 Qwen 是一个系列,以其复杂的推理能力闻名,能同时处理文本、音频和视觉应用模态。
“更惊人的是,Llama 4 的采用率几乎为零。生态系统并未发生有意义的迁移……开发者优先考虑的是每美元性能、延迟、兼容性和微调生态。”
尽管 Qwen 功能强大(并且对多模态应用有明显吸引力),Runpod 指出,Qwen 的声量显然低于 Meta 在基准测试、X(原 Twitter)讨论和会议幻灯片中推广 Llama 的能力。
Daniels 写道:“更惊人的是:Llama 4 的采用率几乎为零。尽管有发布报道和关注,生态系统并未发生有意义的迁移。AI 软件工程市场很务实。它优先考虑每美元性能、延迟、兼容性和微调生态。”
渲染杀死了视频明星
整个 AI 领域中另一个新兴领域是视频。那些旨在为模型发布和产品演示等用例生成文本到视频电影级演示的服务曾令人惊叹。Synthesia、Runway 和 CraftStory 等供应商出现在这个领域,承诺能在几分钟内创建电影级 AI 视频。
如果这个概念真像这些技术专业组织所承诺的那样全面运作,那么原始基础设施排放量将显示出广泛的扩展。
这意味着 AI 视频测试用例会被原型化,开发者会欣喜若狂点更多披萨,部署会扩展以容纳更多空间……团队推进项目长片版本的速度,会比马丁·斯科塞斯和罗伯特·德尼罗喝醉重聚午餐还快。
Daniels 解释道:“生产行为讲述了一个不同的故事:扩展工作负载的数量大约是生成的两倍。团队并非把所有赌注都押在一次昂贵的渲染上;相反,他们快速生成低分辨率草稿,选出优胜者,然后将算力分配给增强。先掷骰子,再精修。”
这一切揭示了一个关于 AI 数据中心资源资本分配的真相。简单说:优化任务比原始创作消耗了更多的 GPU 时间。
聚焦 ComfyUI
对于图像任务,Runpod 表示 ComfyUI 已成为“图像生成的事实标准”,以其基于节点的方法驱动了超过三分之二的图像端点。该公司关于此主题的完整报告指出,这种主导地位“反映了更广泛的转变”,即转向模块化、可定制的流水线,而非简单的文本到图像调用。
Runpod 给开发者的建议是:如果你在构建图像生成工作流,投资 ComfyUI 专业知识越来越必要,因为生态系统已经汇聚于此。
从大局来看,这份分析指出,使用 Runpod AI 基础设施的组织中,近三分之二来自纯 AI 服务之外的行业。或许不出所料,HealthTech 和 FinTech 在企业垂直领域中领先。
结论似乎比那些承诺易于部署、一键式 AI 服务的警报流要平淡得多。相反,原始基础设施排放量显示,生产级 AI 使用模式正围绕性能、效率和工作流控制进行整合。
觉得有用?分享给更多人