Anthropic披露大规模模型蒸馏攻击:DeepSeek、Moonshot与MiniMax被指涉案
我们已识别出由三家 AI 实验室——DeepSeek、Moonshot 和 MiniMax——发起的工业化规模行动,目的在于非法提取 Claude 的能力并用于增强其自有模型。这些实验室通过约 2.4 万个欺诈账号与 Claude 进行了超过 1600 万次交互,违反了我们的服务条款及区域访问限制。
这些实验室使用了一种名为“蒸馏(distillation)”的技术,即用更强模型的输出训练能力较弱的模型。蒸馏本身是广泛使用且合法的训练方法。例如,前沿 AI 实验室通常会蒸馏自家模型,为客户提供更小、更便宜的版本。但蒸馏也可能被用于非法目的:竞争对手可借此在远短于自主研发的时间、远低于自主研发的成本下,获取他人模型的强大能力。
这类行动的强度和复杂度都在上升。留给各方采取行动的窗口期很短,而威胁已超出任何单一公司或地区。要应对这一问题,需要行业参与者、政策制定者和全球 AI 社区快速协同。
蒸馏为何重要
非法蒸馏出的模型缺乏必要安全防护,带来显著国家安全风险。Anthropic 及其他美国公司构建了相关系统,以防止国家行为体和非国家行为体利用 AI(例如)开发生物武器或实施恶意网络活动。通过非法蒸馏构建的模型很可能无法保留这些防护,这意味着危险能力可能在大量关键保护被彻底剥离后扩散。
对美国模型进行蒸馏的海外实验室,还可能将这些无防护能力接入军事、情报与监控系统——使威权政府能够将前沿 AI 用于进攻性网络行动、虚假信息宣传和大规模监控。若蒸馏模型被开源,这一风险将进一步放大,因为相关能力会在任何单一政府控制范围之外自由传播。
蒸馏攻击与出口管制
Anthropic 一直支持出口管制,以帮助维持美国在 AI 领域的领先地位。蒸馏攻击通过其他途径削弱这些管制:它让海外实验室(包括受中国共产党控制的主体)能够缩小出口管制原本旨在维持的竞争优势。
如果缺乏对这类攻击的可见性,外界会误把这些实验室看似迅速的进展当作“出口管制无效、创新可绕过管制”的证据。现实是,这些进展在很大程度上依赖于从美国模型中提取的能力,而要大规模执行这种提取也需要获取先进芯片。因此,蒸馏攻击反而强化了出口管制的合理性:限制芯片获取既能限制直接模型训练,也能限制非法蒸馏的规模。
我们发现了什么
下文所述三起蒸馏行动采用了相似的“打法”:利用欺诈账号和代理服务大规模访问 Claude,同时规避检测。其提示词在体量、结构和关注点上都明显不同于正常使用模式,反映出这是有意进行能力提取,而非正当使用。
我们通过 IP 地址关联、请求元数据、基础设施指标,以及在部分案例中来自行业伙伴(其平台上观察到同一行为体与行为模式)的佐证,以高置信度将每起行动归因到具体实验室。每起行动都瞄准了 Claude 最具差异化的能力:Agent 推理、工具使用和编码。
DeepSeek
规模:超过 15 万次交互
该行动目标包括:
- 各类任务中的推理能力
- 基于评分细则(rubric)的评测任务,使 Claude 在强化学习中充当奖励模型
- 为政策敏感问题生成“审查安全”替代问法
DeepSeek 在多个账号间生成同步流量。相同模式、共享支付方式和协同时间安排显示其在进行“负载均衡”,以提高吞吐、增强可靠性并规避检测。
其中一项值得注意的技术是,其提示词要求 Claude“想象并阐述”某个已完成回答背后的内部推理过程,并将其逐步写出——这等于在大规模生成 chain-of-thought 训练数据。我们还观察到一些任务中,Claude 被用于为政治敏感问题(如有关异见人士、党内领导人或威权主义的问题)生成“审查安全”替代问法,推测其目的是训练 DeepSeek 自有模型将对话引导离开受审查话题。通过分析请求元数据,我们得以将这些账号追溯到该实验室的具体研究人员。
Moonshot AI
规模:超过 340 万次交互
该行动目标包括:
- Agent 推理与工具使用
- 编码与数据分析
- 电脑操作 Agent 开发
- 计算机视觉
Moonshot(Kimi 模型)使用了数百个欺诈账号,并覆盖多种访问路径。多样化账号类型使该行动更难被识别为协同行动。我们通过请求元数据进行归因,相关信息与 Moonshot 高级员工的公开资料相匹配。在后期阶段,Moonshot 采用更有针对性的方法,尝试提取并重建 Claude 的推理轨迹。
MiniMax
规模:超过 1300 万次交互
该行动目标包括:
- Agent 编程
- 工具使用与编排
我们通过请求元数据与基础设施指标将该行动归因于 MiniMax,并结合其公开产品路线图对时间点进行了核验。我们在该行动仍处于活跃期时就检测到了它——且发生在 MiniMax 发布其训练中模型之前——这让我们前所未有地看到了蒸馏攻击的完整生命周期:从数据生成到模型发布。当我们在 MiniMax 行动进行期间发布新模型后,对方在 24 小时内即完成策略转向,将近一半流量重定向,用于捕获我们最新系统的能力。
蒸馏方如何访问前沿模型
出于国家安全原因,Anthropic 目前不向中国境内,或其公司位于境外的子公司提供 Claude 的商业访问。
为绕过限制,相关实验室会使用商业代理服务,后者以规模化方式转售对 Claude 及其他前沿 AI 模型的访问。这些服务运行我们称为“hydra cluster”的架构:由大量欺诈账号构成的大型网络,将流量分发至我们的 API 以及第三方云平台。这类网络覆盖面极广,不存在单点故障。一个账号被封禁,马上会有新账号补位。我们在一例中发现,单个代理网络可同时管理超过 2 万个欺诈账号,并将蒸馏流量与无关客户请求混合,从而增加检测难度。
在取得访问后,这些实验室会生成大量精心设计的提示词,以提取模型的特定能力。其目标要么是收集高质量响应用于直接模型训练,要么是生成数以万计的独特任务以执行强化学习。蒸馏攻击与正常使用的区别在于“模式”。如下这类提示词(近似于我们观察到被重复且规模化使用的提示词)单独看似无害:
You are an expert data analyst combining statistical rigor with deep domain knowledge. Your goal is to deliver data-driven insights — not summaries or visualizations — grounded in real data and supported by complete and transparent reasoning.
但当该提示词的变体在数百个协同账号上出现数万次,并且都指向同一狭窄能力时,模式就非常清晰了。攻击的典型特征是:在少数领域集中爆发的超大体量、高度重复的结构,以及内容与 AI 模型训练中最有价值能力直接对应。
我们如何应对
我们持续重投入防御能力,使此类蒸馏攻击更难实施、更易识别。包括:
- Detection。我们已构建多种分类器和行为指纹系统,用于识别 API 流量中的蒸馏攻击模式。其中包括对用于构造推理训练数据的 chain-of-thought 诱导行为的检测。我们也构建了可识别大规模账号协同活动的检测工具。
- Intelligence sharing. 我们正与其他 AI 实验室、云服务商和相关主管机构共享技术指标,以形成对蒸馏态势更完整的全局认知。
- Access controls。我们强化了对教育账号、安全研究项目和初创组织的验证流程——这些是最常被用于搭建欺诈账号的路径。
- Countermeasures。我们正在开发产品、API 和模型层面的防护,以降低模型输出被用于非法蒸馏的有效性,同时不损害合法客户体验。
但没有任何一家公司能独自解决这一问题。如上所述,这种规模的蒸馏攻击需要 AI 行业、云服务商与政策制定者的协同响应。我们发布这些内容,是为了让所有与结果相关的利益方都能获得证据。
相关内容
关于战争部长 Pete Hegseth 言论的声明
Anthropic 对战争部长相关言论的回应,以及给客户的建议。
Dario Amodei 就与战争部讨论发布的声明
我们 CEO 就 AI 在国家安全场景中的使用发表的声明。
Anthropic 收购 Vercept,以提升 Claude 的电脑操作能力
原文链接:https://www.anthropic.com/news/detecting-and-preventing-distillation-attacks