Anthropic发布《负责任扩展政策》3.0：重构AI灾难风险治理框架

资讯2026-02-24T00:00:00+00:0010 分钟阅读

我们正在发布《负责任扩展政策》（Responsible Scaling Policy，RSP）第三版。这是我们用于降低 AI 系统灾难性风险的自愿性框架。

Anthropic 实施 RSP 已超过两年，我们也从中看到了其优势与不足。因此，我们正在更新这项政策：巩固已被证明有效的部分，修补需要改进之处，并引入新机制，以提升我们决策过程的透明度与可问责性。

你可以在[这里](https://anthropic.com/responsible-scaling-policy/rsp-v3-0)阅读新版 RSP 全文。本文将介绍这些变更背后的核心思路。

原始 RSP 与我们的变革理论

RSP 旨在解决这样一个问题：如何应对那些在政策撰写时尚未出现、却可能随着技术指数级进步而迅速出现的 AI 风险。我们在 2023 年 9 月撰写[最初版 RSP](https://www.anthropic.com/news/anthropics-responsible-scaling-policy)时，大语言模型本质上还是聊天界面；而今天，它们已经可以联网检索、编写并运行代码、操作电脑，并执行自主的多步骤任务。每一种新能力的出现，也伴随着新风险。我们预计这种模式还会持续。

我们将 RSP 建立在“_条件式_（_if-then_）承诺”原则上：_如果_模型超过某些能力阈值（例如可帮助制造危险武器的生物科学能力），_那么_政策就要求我们引入更严格的新一套防护措施（例如防止模型被滥用、或模型权重被窃取）。

每一套防护措施对应一个“AI 安全等级”（ASL）：例如，ASL-2 对应一组必需的防护要求，ASL-3 则对应面向更强 AI 模型的更严格防护要求。

早期 ASL（ASL-2 和 ASL-3）定义得较为详细；但对于还要经过数代演进才会出现的模型，要提前准确规定防护措施就困难得多。因此，我们当时有意将后续 ASL（ASL-4 及以上）保持为相对未定义状态，希望等更清楚高阶 AI 能力意味着什么之后，再进一步细化。

以下是我们“变革理论”的大致说明——也就是我们希望 RSP 通过哪些机制影响生态：

* _内部强制函数（forcing function）_。在 Anthropic 内部，我们希望 RSP 迫使我们把关键防护措施视为发布（及训练）新模型的前置要求。这样可以向不断扩大的组织清晰传达这些防护措施的重要性，推动我们更快取得进展。 * _向上竞争（race to the top）_。我们希望公开 RSP 能促使其他 AI 公司也推出类似政策。这就是“向上竞争”（相对于“向下竞争”）：行业参与者被激励去加强，而不是削弱，模型防护与整体安全姿态。长期来看，我们希望 RSP 或类似政策能成为行业自愿标准，或进一步为鼓励安全与透明开发 AI 模型的法律提供参考。 * _围绕风险形成更多共识_。我们把能力阈值视为行业潜在关键时点。如果我们达到重要能力阈值（例如 AI 可支持生物武器端到端生产），我们会先行落实相应防护，并利用我们掌握的能力证据，推动其他公司和政府也采取行动。换言之，我们认为能力阈值可能是从_单边行动_（Anthropic 仅要求自身模型防护）走向_多边行动_（其他 AI 公司和/或政府也要求类似防护）的好时机。 * _面向未来_。我们认识到，在某些更后期的能力阈值上，我们设想的对抗强度（例如对国家级行为体滥用 AI 模型实现高鲁棒防御）很可能难以、甚至无法由 Anthropic 单独完成。我们希望，当我们进入这些更高能力阶段时，世界已经能清楚看到相关风险，并且我们可以与各国政府协同落实那些单一公司难以独立完成的防护措施。

对我们变革理论的复盘

两年半后，我们的坦诚评估是：这套变革理论有些部分按预期发挥了作用，有些则没有。以下是 RSP 已取得成效的方面：

* 我们的 RSP 确实激励我们开发更强防护。例如，为满足 ASL-3 部署标准（主要针对资源与专业能力相对有限的威胁主体可能引发的化学与生物武器风险），我们开发了更复杂、更准确的方法（具体是[输入与输出分类器](https://www.anthropic.com/research/constitutional-classifiers)）来拦截高风险内容。 * 更广泛地说，ASL-3 标准的整体落地确实可行。我们在 2025 年 5 月已为相关模型[启用 ASL-3 防护](https://www.anthropic.com/news/activating-asl3-protections)，并持续改进至今。 * 我们的 RSP 确实推动了其他 AI 公司采纳某种程度上相似的标准：在我们发布 RSP 几个月内，[OpenAI](https://cdn.openai.com/openai-preparedness-framework-beta.pdf) 与 [Google DeepMind](https://storage.googleapis.com/deepmind-media/DeepMind.com/Blog/introducing-the-frontier-safety-framework/fsf-technical-report.pdf) 都推出了总体相近的框架。也有公司采用了与我们 ASL-3 防护思路类似、针对生物武器风险的[分类器方案](https://cdn.openai.com/gpt-5-system-card.pdf)。这些自愿标准背后的原则（包括 RSP）也帮助推动了早期 AI 政策形成。我们看到全球多地政府（例如加州的 [SB 53](https://leginfo.legislature.ca.gov/faces/billTextClient.xhtml?bill_id=202520260SB53)、纽约的 [RAISE Act](https://www.nysenate.gov/legislation/bills/2025/A6453/amendment/A)，以及欧盟 AI Act 的[实践守则](https://artificialintelligenceact.eu/article/56/)）开始要求前沿 AI 开发者建立并公开用于评估和管理灾难性风险的框架——Anthropic 通过公开文档（包括[Frontier Compliance Framework](https://trust.anthropic.com/resources?s=eorilovp4wxk38nxbi7k3&name=anthropic-frontier-compliance-framework)）来满足这些要求。推动行业建立这类严格的透明框架，正是我们当初推出 RSP 的目标之一。

尽管如此，我们变革理论中的其他部分并未如预期实现：

* 借助 RSP 阈值来促成更多 AI 风险共识的设想，在实践中并未真正跑通——虽然有一定效果。我们发现预设能力阈值比预期更模糊：某些情况下，模型能力显然已_接近_ RSP 阈值，但我们对其是否已明确_跨过_阈值仍存在较大不确定性。当前模型评估科学尚不成熟，无法给出决定性结论。遇到这种情况，我们采取了审慎策略并落实相应防护；但内部不确定性会削弱我们在外部推动行业多边行动时的说服力。 * 生物风险就是这种“模糊地带”的例子。我们的模型在生物学知识上已足以通过多数可快速执行的测试，因此我们已难以有力主张“该模型风险较低”。但仅靠这些测试，也不足以有力证明风险_很高_。我们一直在寻求额外证据，例如支持一项大规模[湿实验（wet-lab）试验](https://arxiv.org/pdf/2602.16703)，但结果仍有歧义，尤其是因为这类研究耗时较长，等研究完成时更强模型往往已出现。 * 尽管过去三年 AI 能力快速提升，政府层面的 AI 安全行动推进仍较慢。政策环境更偏向强调 AI 竞争力与经济增长，而联邦层面的安全导向讨论尚未形成实质推进。我们仍然相信，政府在 AI 安全上的有效参与既必要也可实现，我们会继续推动基于证据、国家安全利益、经济竞争力与公众信任的对话。但这正在成为一个长期工程，而不是会随着 AI 变强或跨越某些阈值而自然发生的过程。

如前所述，我们能够以单边方式、并在公司运营可承受成本内[落实](https://www.anthropic.com/news/activating-asl3-protections) ASL-3 防护。但在更高能力等级和更高 ASL 上，这未必仍然成立。虽然我们的高阶 ASL 尚未充分定义，但上一版 RSP 提出的某些高强度缓解措施，若无集体行动，可能根本无法落地。举例来说，一份关于模型权重安全的 [RAND 报告](https://www.rand.org/content/dam/rand/pubs/research_reports/RRA2800/RRA2849-1/RAND_RRA2849-1.pdf)指出，其面向最强网络能力机构、用于阻止最高优先级攻击行动的“SL5”安全标准“目前无法实现”，且“很可能需要国家安全体系协助”。

（a）风险公共论证被“模糊地带”削弱、（b）反监管政治气候、（c）高阶 RSP 要求难以单边达成，这三者叠加，构成了当前 RSP 的结构性挑战。我们本可以通过把 ASL-4 与 ASL-5 的防护定义得更易达标来应对，但那会背离 RSP 的初衷。

因此，我们选择在到达更高等级_之前_，以透明方式承认这些挑战并重构 RSP。修订后的 RSP 旨在采用在当前环境下“有难度但可实现”的更现实单边承诺，同时继续完整刻画我们认为整个行业需要通过多边协作应对的风险图景。

更新后的《负责任扩展政策》

新版 RSP 有三个关键要素。

1\. 将“公司计划”与“行业建议”分离

新版 RSP 现在明确两套缓解措施：第一套，是无论外部如何变化我们都会推进的措施；第二套，是一份更具雄心的“能力—缓解措施”映射，我们认为若整个 AI 行业共同实施，将有助于充分管理先进 AI 风险。

可阅读完整[Responsible Scaling Policy](https://anthropic.com/responsible-scaling-policy/rsp-v3-0)。

2\. Frontier Safety Roadmap

新版 RSP 引入了“制定并发布 Frontier Safety Roadmap”的要求。该路线图将描述我们在 Security、Alignment、Safeguards、Policy 四个领域的具体风险缓解计划。路线图目标的设定原则是：既有雄心、又可达成——这正是我们认为以往 RSP 成功的重要机制之一。

这些并非硬性承诺，而是我们将公开打分、持续披露进展的公开目标。这种“非强制但公开声明”的目标策略，借鉴了我们一直倡导的前沿 AI 立法透明思路（同时提供的信息细节也远超现行立法要求），并延续了前几版 RSP 的成功经验。

当前 Frontier Safety Roadmap 的部分示例目标包括：

* 启动“moonshot R&D”项目，探索雄心勃勃、甚至非常规的路径，以实现前所未有的信息安全水平； * 开发一套系统 red-teaming 方法（很可能包含大量自动化），其效果要超过我们[漏洞赏金计划](https://support.claude.com/en/articles/12119250-model-safety-bug-bounty-program)中数百名参与者的集体贡献； * 落实多项系统性措施，确保 Claude 按其[constitution](https://www.anthropic.com/constitution)运行； * 建立覆盖关键 AI 开发活动的集中化、完整记录体系，并使用 AI 分析这些记录，以识别包括内部人员（人类与 AI）异常行为及安全威胁在内的问题； * 发布政策路线图，提出“监管阶梯（regulatory ladder）”的具体建议——即随风险增加而逐级升级的政策，并为政府 AI 政策提供参考。

可在[Frontier Safety Roadmap](https://anthropic.com/responsible-scaling-policy/roadmap)查看上述及更多目标。

3\. Risk Reports 与外部审查

Risk Reports 是我们在“延续并强化上一版 RSP 有效做法”上的另一项关键改进。我们发现，在 2025 年 5 月发布原型化 Risk Report——即我们的[Safeguards Report](https://www-cdn.anthropic.com/dc4cb293c77da3ca5e3398bdeef75ee17b42b73f.pdf)——对内部风险认知与对外沟通都很有价值。Risk Reports 将把这种做法扩展为更系统、更全面的机制。

Risk Reports 将在发布时提供模型安全画像的详细信息。它不仅描述模型能力，还会说明能力、威胁模型（即模型可能形成威胁的具体方式）与当前风险缓解措施如何相互对应，并给出整体风险水平评估。Risk Reports 将每 3-6 个月在线发布一次（其中部分内容会进行删减1）。

新版 RSP 还要求在特定情况下对 Risk Reports 进行外部审查。我们将邀请对 AI 安全研究高度熟悉的第三方专家审查者，他们需具备公开、坦诚评估 Anthropic 安全状况的激励，并避免重大利益冲突。他们将获得未删减或最小删减版本的 Risk Report，对我们的推理、分析与决策进行全面的公开审查。尽管我们当前模型尚未达到“必须外部审查”的条件，我们已在开展试点并持续推进该目标。

Risk Reports 将处理以下差距

[... 内容已截断 ...]

原文链接：https://www.anthropic.com/news/responsible-scaling-policy-v3