Anthropic 发布宪法分类器++:防御越狱攻击更高效
深度Anthropic2026年1月9日5 分钟阅读
Anthropic 最新发布的宪法分类器++(Constitutional Classifiers++)将越狱攻击成功率从初代的 4.4% 进一步降低,计算开销却从 23.7% 大幅降至约 1%。这套两阶段架构结合了轻量级探针和更强大的分类器,在保持高防御能力的同时,将无害查询的拒绝率降低了 87%。
本文编译自 Next-generation Constitutional Classifiers: More efficient protection against universal jailbreaks,版权归原作者所有。
觉得有用?分享给更多人