DeepSeek 之后,中国开源AI生态走向AI+

本文为长文精华摘要,完整内容请查看原文。
中国有机的开源AI生态
自 DeepSeek R1 发布以来,中国首次形成了一个有机的开源AI生态系统。既有阿里巴巴、腾讯等老牌玩家,也有小米、美团等新入局者,甚至一些组织完全转向贡献于新的开放文化。
这种协作超越了国界:Hugging Face 上关注度最高的组织是 DeepSeek,第四名是 Qwen。除了模型,公开分享科学和技术不仅影响了其他AI组织,也影响了整个开源社区。Hugging Face 上最受欢迎的论文主要来自中国组织,即字节跳动、DeepSeek、腾讯和 Qwen。
阿里巴巴将开源定位为生态系统和基础设施战略。Qwen 并非单一旗舰模型,而是持续扩展为一个覆盖多种尺寸、任务和模态的家族,在 Hugging Face 和其自有平台 ModelScope 上频繁更新。其影响力并未集中在任何单一版本上,而是作为组件在不同场景中被重复使用,逐渐承担起通用AI基础的角色。到 2025 年中,Qwen 成为 Hugging Face 上衍生模型最多的模型,有超过 11.3 万个模型使用 Qwen 作为基础,超过 20 万个模型仓库标记了 Qwen,远超 Meta 的 Llama(2.7 万)或 DeepSeek(6 千)。从组织层面看,阿里巴巴的衍生模型数量几乎与谷歌和 Meta 的总和相当。
腾讯采取了不同的策略:专注于多模态和工具使用。其 Hunyuan 系列模型在图像生成、视频理解和多轮对话方面表现出色。腾讯将模型与内部业务深度集成,例如微信的智能助手和腾讯云的 AI 服务。腾讯的独特之处在于其“模型即服务”平台,允许开发者通过 API 调用模型,而无需关心底层基础设施。这种模式降低了使用门槛,加速了模型的实际应用。
字节跳动的豆包大模型在代码生成和长文本理解方面有优势。字节跳动将模型开源与内部业务(如抖音推荐算法)结合,形成了“研究-产品-开源”的闭环。豆包大模型在 GitHub 上的 Star 数增长迅速,显示出开发者社区的高度兴趣。
DeepSeek 的 R1 模型发布是一个转折点。它不仅是一个高性能模型,更是一个“工程可用的”系统。R1 的代码、训练数据和部署工具全部开源,降低了其他组织复现和改进的门槛。DeepSeek 随后发布了 R1 的多个变体,专注于推理优化、多模态扩展和特定领域微调。
小米、美团等以前只专注于应用层的公司,也开始训练和发布自己的模型。凭借其在真实使用场景和领域数据方面的原生优势,一旦通过开源以低成本获得强大的推理能力,构建内部模型就变得可行。这使得 AI 能够围绕其特定业务进行调优,而不是受限于外部提供商的成本结构或限制。
如果商业世界抓住了投资回报率为正的增长机会,研究机构和更广泛的社区则更愿意接受这种转变。北京智源人工智能研究院(BAAI)和上海人工智能实验室(Shanghai AI Lab) 等组织将更多精力转向工具链、评估系统、数据平台和部署基础设施,例如 FlagOpen、OpenDataLab 和 OpenCompass 等项目。这些努力并非追逐单一模型性能,而是加强了生态系统的长期基础。
未来的基础
新生态系统的定义特征不是模型更多,而是形成了完整的链条。模型可以开源和扩展;部署可以重用和扩展;软件和硬件可以协调和交换;治理能力可以嵌入和审计。这是从孤立突破到可以在现实世界中实际运行的系统的转变。
这个生态系统并非一夜之间出现。它建立在自 2017 年以来多年积累的基础设施“顺风”之上。过去几年,中国周期性投资于数据中心和计算中心,逐渐形成了以“东数西算”战略为中心的全国性、一体化计算布局。国家规划建立了 8 个主要计算枢纽和 10 个数据中心集群,将计算需求从东部引导至中西部地区。
公开信息表明,中国打算持续投资能源产能。截至 2025 年,中国的总计算能力约为 1590 EFLOPS,位居全球前列。中国消息人士称,专为 AI 训练和部署定制的智能计算能力预计将 以每年约 43% 的速度增长,远超通用计算。同时,数据中心平均电能利用效率(PUE)降至约 1.46,表明能效更好,为大规模 AI 提供了坚实的硬件基础。能源显然是一个关键焦点。
如果说 2017 年的“新一代人工智能发展规划”主要是设定方向和构建基础,那么 2025 年 8 月的“AI+”行动计划则明确将重点转向大规模部署和深度集成。这标志着与通用人工智能(AGI)在方向上的不同追求。R1 的出现提供了工程和生态系统层面缺失的“提升力”。它是系统性地激活已经建成的计算、能源和数据基础设施的催化剂。
因此,在 R1 发布后的一年里,中国的 AI 发展沿着两条主要路径加速。首先,AI 更深地嵌入工业流程,从聊天机器人转向智能体(Agent)和工作流。其次,更加重视自主可控的 AI 系统,体现在更灵活的训练路径和日益本地化的部署策略中。
回顾过去,真正的转折点不是模型数量的增长,而是 开源模型使用方式的根本性变化。开源从可选选择变为 系统设计中的默认假设。模型成为更大工程系统中可重用和可组合的组件。
回顾过去,展望未来
从 DeepSeek 到“AI+”,中国在 2025 年的道路并非追逐峰值性能。而是构建一条 围绕开源、工程效率和可扩展交付组织的实用路径,这条路径已经开始自行运转。
资源约束并未限制中国的 AI 发展。在某些方面,它们重塑了其轨迹。DeepSeek R1 的发布作为一个催化事件,触发了国内产业的一系列连锁反应,加速了更具有机结构的生态系统的形成。同时,这种转变为持续的国内研发创造了关键窗口。随着这个生态系统的成熟,其长期影响——以及全球 AI 社区如何与日益自我维持的中国 AI 生态系统互动——将成为未来讨论的重要问题。
觉得有用?分享给更多人