DeepSeek 之后,中国开源AI生态走向AI+

深度Hugging Face2026年2月3日5 分钟阅读
DeepSeek 之后,中国开源AI生态走向AI+
DeepSeek R1 发布一年后,中国开源AI生态从模型竞赛转向以工程效率和规模化交付为核心的“AI+”路径。开源已成为中国AI组织的默认选择,模型、论文、部署基础设施全面开放共享。

本文为长文精华摘要,完整内容请查看原文。

中国有机的开源AI生态

自 DeepSeek R1 发布以来,中国首次形成了一个有机的开源AI生态系统。既有阿里巴巴、腾讯等老牌玩家,也有小米、美团等新入局者,甚至一些组织完全转向贡献于新的开放文化。

这种协作超越了国界:Hugging Face 上关注度最高的组织是 DeepSeek,第四名是 Qwen。除了模型,公开分享科学和技术不仅影响了其他AI组织,也影响了整个开源社区。Hugging Face 上最受欢迎的论文主要来自中国组织,即字节跳动、DeepSeek、腾讯和 Qwen。

阿里巴巴将开源定位为生态系统和基础设施战略。Qwen 并非单一旗舰模型,而是持续扩展为一个覆盖多种尺寸、任务和模态的家族,在 Hugging Face 和其自有平台 ModelScope 上频繁更新。其影响力并未集中在任何单一版本上,而是作为组件在不同场景中被重复使用,逐渐承担起通用AI基础的角色。到 2025 年中,Qwen 成为 Hugging Face 上衍生模型最多的模型,有超过 11.3 万个模型使用 Qwen 作为基础,超过 20 万个模型仓库标记了 Qwen,远超 Meta 的 Llama(2.7 万)或 DeepSeek(6 千)。从组织层面看,阿里巴巴的衍生模型数量几乎与谷歌和 Meta 的总和相当。

腾讯采取了不同的策略:专注于多模态和工具使用。其 Hunyuan 系列模型在图像生成、视频理解和多轮对话方面表现出色。腾讯将模型与内部业务深度集成,例如微信的智能助手和腾讯云的 AI 服务。腾讯的独特之处在于其“模型即服务”平台,允许开发者通过 API 调用模型,而无需关心底层基础设施。这种模式降低了使用门槛,加速了模型的实际应用。

字节跳动的豆包大模型在代码生成和长文本理解方面有优势。字节跳动将模型开源与内部业务(如抖音推荐算法)结合,形成了“研究-产品-开源”的闭环。豆包大模型在 GitHub 上的 Star 数增长迅速,显示出开发者社区的高度兴趣

DeepSeek 的 R1 模型发布是一个转折点。它不仅是一个高性能模型,更是一个“工程可用的”系统。R1 的代码、训练数据和部署工具全部开源,降低了其他组织复现和改进的门槛。DeepSeek 随后发布了 R1 的多个变体,专注于推理优化、多模态扩展和特定领域微调。

小米、美团等以前只专注于应用层的公司,也开始训练和发布自己的模型。凭借其在真实使用场景和领域数据方面的原生优势,一旦通过开源以低成本获得强大的推理能力,构建内部模型就变得可行。这使得 AI 能够围绕其特定业务进行调优,而不是受限于外部提供商的成本结构或限制。

如果商业世界抓住了投资回报率为正的增长机会,研究机构和更广泛的社区则更愿意接受这种转变。北京智源人工智能研究院(BAAI)和上海人工智能实验室(Shanghai AI Lab) 等组织将更多精力转向工具链、评估系统、数据平台和部署基础设施,例如 FlagOpen、OpenDataLab 和 OpenCompass 等项目。这些努力并非追逐单一模型性能,而是加强了生态系统的长期基础。

未来的基础

新生态系统的定义特征不是模型更多,而是形成了完整的链条。模型可以开源和扩展;部署可以重用和扩展;软件和硬件可以协调和交换;治理能力可以嵌入和审计。这是从孤立突破到可以在现实世界中实际运行的系统的转变。

这个生态系统并非一夜之间出现。它建立在自 2017 年以来多年积累的基础设施“顺风”之上。过去几年,中国周期性投资于数据中心和计算中心,逐渐形成了以“东数西算”战略为中心的全国性、一体化计算布局。国家规划建立了 8 个主要计算枢纽和 10 个数据中心集群,将计算需求从东部引导至中西部地区。

公开信息表明,中国打算持续投资能源产能。截至 2025 年,中国的总计算能力约为 1590 EFLOPS,位居全球前列。中国消息人士称,专为 AI 训练和部署定制的智能计算能力预计将 以每年约 43% 的速度增长,远超通用计算。同时,数据中心平均电能利用效率(PUE)降至约 1.46,表明能效更好,为大规模 AI 提供了坚实的硬件基础。能源显然是一个关键焦点。

如果说 2017 年的“新一代人工智能发展规划”主要是设定方向和构建基础,那么 2025 年 8 月的“AI+”行动计划则明确将重点转向大规模部署和深度集成。这标志着与通用人工智能(AGI)在方向上的不同追求。R1 的出现提供了工程和生态系统层面缺失的“提升力”。它是系统性地激活已经建成的计算、能源和数据基础设施的催化剂。

因此,在 R1 发布后的一年里,中国的 AI 发展沿着两条主要路径加速。首先,AI 更深地嵌入工业流程,从聊天机器人转向智能体(Agent)和工作流。其次,更加重视自主可控的 AI 系统,体现在更灵活的训练路径和日益本地化的部署策略中。

回顾过去,真正的转折点不是模型数量的增长,而是 开源模型使用方式的根本性变化。开源从可选选择变为 系统设计中的默认假设。模型成为更大工程系统中可重用和可组合的组件。

回顾过去,展望未来

从 DeepSeek 到“AI+”,中国在 2025 年的道路并非追逐峰值性能。而是构建一条 围绕开源、工程效率和可扩展交付组织的实用路径,这条路径已经开始自行运转。

资源约束并未限制中国的 AI 发展。在某些方面,它们重塑了其轨迹。DeepSeek R1 的发布作为一个催化事件,触发了国内产业的一系列连锁反应,加速了更具有机结构的生态系统的形成。同时,这种转变为持续的国内研发创造了关键窗口。随着这个生态系统的成熟,其长期影响——以及全球 AI 社区如何与日益自我维持的中国 AI 生态系统互动——将成为未来讨论的重要问题。

觉得有用?分享给更多人

获取每周 AI 工具精选

工具推荐、实战教程和生态洞察,每周更新。

相关文章

Simon Willison 正在重构 LLM Python 库的抽象层,以支持服务器端工具执行等新功能。他利用 Claude Code 分析了四大 LLM 提供商的客户端库,生成了用于测试的 curl 命令和 JSON 输出。这些调研材料已开源,旨在帮助设计更通用的 API 抽象。

深度Simon Willison·4月5日·1 分钟

智能体技能——包含程序性知识和可执行资源的结构化包,供智能体在推理时动态加载——已成为增强 LLM 智能体的可靠机制。然而,推理时技能增强存在根本性限制:检索噪声引入无关指导,注入的技能内容带来大量 token 开销,而模型从未真正习得它所遵循的知识。我们提出一个问题:技能是否可以被内化到模型参数中,使其在无需任何运行时技能检索的情况下实现零样本自主行为?我们提出 Skill0,一个专为技能内化设计的上下文强化学习框架。Skill0 引入了一种训练时课程,从提供完整技能上下文开始,逐步撤除。技能按类别离线分组,并与交互历史一起渲染为紧凑的视觉上下文,教授模型工具调用和多轮任务完成。动态课程机制…

深度·4月5日·17 分钟

评论