DeepSeek R1 发布一年,中国开源AI生态崛起

深度Hugging Face2026年1月20日5 分钟阅读
DeepSeek R1 发布一年,中国开源AI生态崛起
Hugging Face 回顾了 DeepSeek R1 模型发布一年来中国开源AI生态的演变。这篇博客指出,R1 不仅降低了技术、采用和心理三大门槛,还推动中国AI竞争从模型性能转向系统能力。数据显示,2025年中国模型在 Hugging Face 上的下载量已超过美国。

这是系列博客的第一篇,回顾过去一年中国开源社区的历史性进展及其对整个生态系统的塑造。2025年的许多进展都可以追溯到一月的“DeepSeek 时刻”——当时杭州的AI公司 DeepSeek 发布了他们的 R1 模型。

这篇博客探讨战略变化以及新开源模型和参与者的爆发式增长。第二篇将涵盖中国公司在开源生态增长背景下做出的架构和硬件选择,第三篇分析主要组织的轨迹和全球开源生态的未来。

对于为开源生态系统做出贡献并依赖它的AI研究者和开发者,以及理解快速变化环境的政策制定者来说,现在正是构建和发布开源模型的最佳时机——过去一年由 DeepSeek 催化的大幅增长证明了这一点。值得注意的是,地缘政治推动了采用;虽然中国开发的模型在2025年主导了各项指标,新参与者相互超越,但西方AI社区正在寻求可商业部署的替代方案。

中国有机开源AI生态的种子

在 R1 之前,中国的AI产业仍主要围绕闭源模型。开源模型已存在多年,但大多局限于研究社区或仅用于隐私敏感应用等小众场景。对大多数公司来说,它们不是默认选择。计算资源紧张,“开源还是闭源”是争论的话题。

DeepSeek 的 R1 模型降低了先进AI能力的门槛,提供了清晰的跟随模式,解锁了第二层能力。更重要的是,这次发布为中国AI发展提供了极其宝贵的东西:时间。它表明,即使在资源有限的情况下,通过开源和快速迭代,仍然可以实现快速进步。这种方法与中国2017年“AI+”战略设定的目标自然契合:尽早将AI与产业结合,同时长期持续建设计算能力。

R1 发布一年后,我们看到的不仅是新模型的集合,更是一个不断增长的有机开源AI生态系统。

DeepSeek R1:转折点

这是第一次,来自中国的开源模型进入全球主流排名,并在接下来的一年里,在新模型发布时被反复用作参考点。DeepSeek 的 R1 迅速成为 Hugging Face 有史以来最受欢迎的模型,最受欢迎的模型不再主要由美国开发。

Most Liked HF Models DS

但 R1 的真正意义不在于它是否是当时最强的模型,而在于它如何降低了三个门槛。

第一个是技术门槛。 通过公开分享其推理路径和后训练方法,R1 将以前锁在闭源 API 后面的高级推理变成了可以下载、蒸馏和微调的工程资产。许多团队不再需要从头训练大规模模型来获得强大的推理能力。推理开始表现得像一个可重用模块,在不同系统中反复应用。这也推动行业重新思考模型能力与计算成本的关系,这种转变在中国这样的计算受限环境中尤其有意义。

第二个是采用门槛。 R1 在 MIT 许可下发布,使其使用、修改和重新分发变得简单。依赖闭源模型的公司开始直接将 R1 引入生产。蒸馏、二次训练和领域特定适应成为常规工程工作,而不是特殊项目。随着分发限制的消失,模型迅速扩散到云平台和工具链中,社区讨论从“哪个模型得分更高”转向“如何部署它、降低成本并将其集成到真实系统中”。随着时间的推移,R1 超越了研究产物的范畴,成为可重用的工程基础。

第三个变化是心理层面的。 当问题从“我们能做这个吗?”转变为“我们如何做好这个?”,许多公司的决策发生了变化。对中国AI社区来说,这也是一个难得的持续获得全球关注的时刻,对一个长期被视为追随者的生态系统来说,这意义重大。

这三个门槛的降低共同意味着,生态系统开始获得自我复制的能力。

从 DeepSeek 到 AI+:战略重新调整

一旦开源进入主流,一个自然的问题随之而来:中国公司的战略将如何改变?过去一年,答案变得清晰:竞争开始从模型与模型的比较转向系统级能力。

与2024年相比,R1 发布后的时期,中国AI格局形成了新模式。大型科技公司领先,初创公司快速跟进,垂直行业的公司越来越多地进入该领域。虽然他们的路径不同,但逐渐形成了共同的理解,尤其是在领先者中:开源不再是短期策略,而是长期竞争战略的一部分。

HG Repository Growth(1)

发布先进模型和仓库的中国竞争组织数量激增。 反映在《中国公司 Hugging Face 仓库增长》中,现有巨头的开源发布数量大幅增加,百度从2024年在 Hugging Face 上零发布增加到2025年的100多个,字节跳动和腾讯等其他公司的发布量增加了八到九倍。新开源组织涌入,发布了高性能模型,月之暗面的开源发布 Kimi K2 被认为是“另一个 DeepSeek 时刻”。

Top New Models

发布变得更强大和频繁,高性能模型每周发布; 新创建的中国模型每周都成为最受欢迎和下载的模型,在 Hugging Face 上每周最下载的新模型中占据最高人气。《Hugging Face 上每周新创建模型》显示了按组织位置或基础模型组织位置标记的流行衍生品的新仓库。

从 Hugging Face 的热图数据可以看出,2025年2月至7月间,中国公司的开源发布明显更加活跃。百度和月之暗面从主要闭源方法转向开源发布。智谱AI的 GLM 和阿里的 Qwen 更进一步,从仅仅发布模型权重扩展到构建工程系统和生态系统接口。在这个阶段,仅比较原始模型性能已不足以取胜。竞争越来越集中在生态系统、应用场景和基础设施上。

这一策略是有效的;在新创建的模型(<1年)中,中国模型的下载量已超过包括美国在内的任何其他国家。

Downloads_2025

中国AI参与者不是通过协议协调,而是通过约束。看似协作,但更好理解为在共享技术、经济和监管压力下的对齐。 这并不意味着公司形成了合作联盟。相反,在计算、成本和合规方面的类似约束下,他们开始在类似的技术基础和工程路径上竞争。当竞争发生在可比较的系统结构上时,生态系统开始显示出自我传播和增长的能力。智谱AI、月之暗面、阿里的 Qwen 和腾讯的技术领导者在共享问题上协调,这在其他国家很少见。

全球接受与回应

全球范围内,尤其是美国,对开源采用和开发的积极情绪有所增加,更广泛地认识到开源领导力在全球竞争力中的关键作用。

DeepSeek 在全球市场,尤其是东南亚和非洲,被大量采用。在这些市场,多语言支持、开源权重可用性和成本考虑等因素支持了企业使用。

西方组织通常寻求非中国模型进行商业部署。 美国组织的主要发布,如 OpenAI 的 gpt-oss、AI2 的 Olmo 和 Meta 的 Llama 4,获得了社区参与。Reflection AI 宣布其努力构建前沿的美国开源权重模型。在法国,Mistral 发布了他们的 Mistral Large 3 系列,持续发展其开源根基。

与此同时,西方的主要发布基于中国模型;2025年11月,Deep Cogito 发布了 Cogito v2.1 作为领先的美国开源权重模型。该模型是 DeepSeek-V3 的微调版本。全球使用开源权重模型的初创公司和研究者通常默认,甚至依赖中国开发的模型。

美国真正开放模型(ATOM)项目引用 DeepSeek 和中国的模型势头作为共同努力在开源权重模型开发中领先的动机。该项目强调需要多方努力,其研究也突出了 OpenAI 的 gpt-oss 的早期大量采用。

世界仍在回应,出现了新的开源热潮。2026年预计将有重大发布,尤其是来自中国和美国。高度相关的是架构趋势、硬件选择和组织方向,这将在本系列的下一篇中涵盖。

所有数据均来自 Hugging Face。有关2025年开源的更多相关数据和分析,我们鼓励您阅读数据来源倡议和 Hugging Face 的《开放智能经济:追踪模型生态系统中的权力与参与》、aiWorld 的《2025年开源AI年度回顾》以及 InterConnects 的《解释开放模型状态的8个图表》。

本文编译自 One Year Since the “DeepSeek Moment”,版权归原作者所有。

觉得有用?分享给更多人

获取每周 AI 工具精选

工具推荐、实战教程和生态洞察,每周更新。

相关文章

Simon Willison 正在重构 LLM Python 库的抽象层,以支持服务器端工具执行等新功能。他利用 Claude Code 分析了四大 LLM 提供商的客户端库,生成了用于测试的 curl 命令和 JSON 输出。这些调研材料已开源,旨在帮助设计更通用的 API 抽象。

深度Simon Willison·4月5日·1 分钟

智能体技能——包含程序性知识和可执行资源的结构化包,供智能体在推理时动态加载——已成为增强 LLM 智能体的可靠机制。然而,推理时技能增强存在根本性限制:检索噪声引入无关指导,注入的技能内容带来大量 token 开销,而模型从未真正习得它所遵循的知识。我们提出一个问题:技能是否可以被内化到模型参数中,使其在无需任何运行时技能检索的情况下实现零样本自主行为?我们提出 Skill0,一个专为技能内化设计的上下文强化学习框架。Skill0 引入了一种训练时课程,从提供完整技能上下文开始,逐步撤除。技能按类别离线分组,并与交互历史一起渲染为紧凑的视觉上下文,教授模型工具调用和多轮任务完成。动态课程机制…

深度·4月5日·17 分钟

评论