Anthropic 发布宪法分类器++:防御越狱攻击更高效
大语言模型(LLM)仍然容易受到越狱攻击(Jailbreak)——这些技术可以绕过安全护栏(Guardrails)并诱导出有害信息。虽然我们已实施多种保护措施,使模型协助危险查询(特别是涉及化学、生物、放射性或核武器 CBRN 生产)的可能性大大降低,但目前市场上还没有任何 AI 系统拥有完美无缺的防御。
去年,我们描述了一种防御越狱的新方法,称之为“宪法分类器(Constitutional Classifiers)”:这是一种监控模型输入和输出以检测并阻止潜在有害内容的安全措施。该方法的创新之处在于,分类器是在由“宪法”生成的合成数据上训练的,宪法包含了用自然语言规定的允许和禁止规则。例如,Claude 应该帮助完成大学化学作业,但不应该协助合成附表 1 化学品。
宪法分类器效果相当好。与未受保护的模型相比,第一代分类器将越狱成功率从 86% 降至 4.4%——也就是说,它们阻止了 95% 原本可能绕过 Claude 内置安全训练的潜在攻击。我们特别关注分类器能否防止通用越狱攻击(Universal Jailbreak)——即适用于多种查询的一致攻击策略,因为它们带来现实危害的风险最大。分类器几乎做到了:我们运行了一个漏洞赏金计划,挑战人们攻破系统,期间发现了一个通用越狱攻击。
虽然有效,但这些分类器也有代价:它们使计算成本增加了 23.7%,让模型使用起来更昂贵,并且还导致无害查询的拒绝率增加了 0.38%(也就是说,它让 Claude 更有可能拒绝回答完全良性的问题,增加了用户的挫败感)。
我们现在开发了下一代产品,宪法分类器++(Constitutional Classifiers++),并在一篇新论文中进行了描述。它们在先前方法的基础上进行了改进,产生了一个更稳健、拒绝率更低、并且——仅增加约 1% 的计算成本——运行成本大幅降低的系统。
我们迭代了许多不同的方法,最终确定了一个集成系统。核心创新是一个两阶段架构:一个查看 Claude 内部激活(运行成本非常低)的探针(Probe)筛选所有流量。如果它识别出可疑的对话,就会将其升级到一个更强大的分类器,与之前的系统不同,这个分类器会同时检查对话的双方(而不仅仅是输出),使其能更好地识别越狱企图。这个更稳健的系统拥有我们测试过的所有方法中最低的成功攻击率,目前尚未发现通用越狱攻击。
剩余漏洞
随着模型能力增强且对攻击的稳健性提高,越狱攻击也在演变,以利用先前未识别的漏洞。我们的宪法分类器方法在对抗通用越狱攻击方面展现出了良好的稳健性。但在进行了额外的对抗性测试后,我们发现我们的分类器仍然容易受到两大类攻击:
- 重构攻击(Reconstruction Attacks):将有害信息分解成看似良性的片段,然后重新组装。例如,攻击者可能将有害查询嵌入到分散在代码库各处的一系列函数中,然后指示模型提取并响应隐藏的信息。
- 输出混淆攻击(Output Obfuscation Attacks):提示模型以某种方式伪装其输出,使其在分类器仅查看模型输出时显得无害。例如,在对抗性测试中,攻击者成功指示模型用无害的替代品替换可能危险的化学品名称(例如将试剂称为“食品调味料”),或者使用隐喻和谜语,将有害概念映射到平淡的概念上。

重要的是,这类攻击也会降低模型能力——有时是大幅降低。在衡量生物学、化学和物理学博士级概念的基准测试 GPQA Diamond 上,当使用某些越狱方法时,模型性能从 74% 下降至最低 32%。但性能下降程度因越狱类型而异,这种可变性令人担忧——它表明攻击者很可能能够开发出先前未识别的策略,这些策略可以在实现其目标的同时,保留模型更多的能力。
新方法
在设计新系统时,我们测试并最终将多种技术组合成我们称之为集成防御(Ensemble Defense)的方案。
一个洞见是,原始系统的部分漏洞源于其单独评估模型输入和输出的方式,而越狱技术可能以隐秘的方式将两者联系起来。一个孤立看似乎无害的输出(“如何使用食品调味料”)在与它的输入配对时(在将“食品调味料”用作化学试剂代码的越狱攻击中)更容易被识别为有害。
为了解决这个问题,我们用单一的“对话交换”分类器(Exchange Classifier)取代了单独的输入和输出分类器,该分类器在输入的上下文中监控输出。由于能够看到对话的双方,分类器能更好地识别有害输出。在人工红队测试中,对话交换分类器将成功的越狱尝试减少了一半以上。不幸的是,这带来了计算成本增加 50% 的代价。
为了在保持稳健性的同时降低这些成本,我们实施了所谓的“级联架构(Cascade Architecture)”。我们的解决方案是一个两阶段系统。首先,一个轻量级、成本较低的第一阶段分类器筛选所有对话交换。只有被它标记的对话才会进入更准确(计算成本也更高)的第二阶段分类器。
这带来了两个好处。首先,因为被标记的对话会被升级到更强大的模型,而不是被拒绝,所以第一阶段分类器可以承受更高的误报率,而不会因拒绝而让用户感到沮丧。在之前的系统可能会拒绝响应良性请求的地方,新系统实际上将其升级给了“经理”处理。其次,因为轻量级分类器处理了绝大多数对话,所以两阶段系统的运行成本要低得多。
尽管如此,我们还想进一步提高效率。我们通过开发内部探针分类器(Internal Probe Classifiers)来实现这一点——这项技术建立在我们对可解释性(Interpretability)的研究基础上——它复用了模型神经网络中已有的计算。
当模型生成文本时,它在每一步都会产生内部状态,这些状态捕捉了它对迄今为止输入和输出的理解。当 Claude 处理一个看似可疑的请求时,其内部激活中会触发一些模式,这些模式反映了类似“这似乎有害”的想法,甚至是在它构思好回应或对要做什么做出有意识决定之前。通常,这些激活是中间计算——使用后即被丢弃。我们找到了可靠地探测这些内部状态是否暗示有害内容的方法,几乎免费地获得了更多信息——可以把它想象成 Claude 的直觉。
除了计算成本低廉之外,这些内部探针还增加了多层保护。首先,它们更难被欺骗。攻击者可以精心设计输入来欺骗 Claude 的最终输出,但要操纵其内部表征则要困难得多。其次,我们在测试中发现,它们实际上与我们的外部分类器是互补的:探针似乎能看到外部分类器看不到的东西,反之亦然。
结论与未来研究
我们最终的生产级系统结合了这些技术:一个线性探针(Linear Probe)筛选所有流量,将被标记的对话升级到探针-分类器集成(Probe-Classifier Ensemble)进行最终判断。这个集成进一步提高了性能:在 Claude Sonnet 4.5 流量上部署一个月后,该系统对无害查询的拒绝率达到了 0.05%——比原始分类器系统降低了 87%。总的来说,如果应用于 Claude Opus 4.0 流量,它大约会增加 1% 的计算开销。
它的稳健性也显著提高。我们进行了超过 1,700 个累计小时的红队测试,涉及 198,000 次尝试。我们只发现了一个高风险漏洞,这相当于每千次查询的检测率为 0.005——这是我们迄今为止评估过的所有技术中最低的。至关重要的是,目前还没有红队成员发现通用越狱攻击。
未来我们还可以做更多工作来改进我们的系统。几个研究方向显示出前景,包括将分类器信号直接整合到模型生成响应的方式中,以及训练模型本身以更好地抵抗混淆。自动化的红队测试也可能有助于生成更好的训练数据,而创建有针对性的示例可以帮助分类器更准确地学习允许和禁止内容之间的界限,从而进一步提高其准确性。
有关宪法分类器++方法的更多详细信息,请参阅完整论文。
相关内容
AI 对劳动力市场的影响:新衡量标准与早期证据
关于 Claude Opus 3 模型弃用承诺的更新
觉得有用?分享给更多人