Anthropic 开源 Bloom:AI 行为自动化评估框架
Anthropic 发布了 Bloom,一个开源的智能体工程(Agentic Engineering)框架,用于自动生成前沿 AI 模型的行为评估。它能将研究人员指定的行为,在自动生成的场景中进行频率和严重性量化。Bloom 的评估结果与人工标注的判断高度相关,并能可靠地区分基线模型与故意未对齐的模型。作为示例,我们发布了 16 个模型在四种对齐相关行为上的基准测试结果。Bloom 已在 GitHub 上开源。
高质量的行为评估对于理解前沿 AI 模型的对齐性至关重要。但评估通常需要很长时间来开发,并且有过时的风险:评估可能会“污染”新模型的训练集,或者模型能力提升到评估不再真正测试我们感兴趣的内容。换句话说,我们需要更快、更可扩展的方法来生成针对未对齐行为的评估。
为此,我们最近发布了 Petri,一个开源工具,允许研究人员通过与模拟用户和工具进行多样化的多轮对话,自动探索 AI 模型的行为特征。Petri 提供模型行为的定量和定性总结,并揭示未对齐的新实例。
Bloom 是一个互补的评估工具。它为任意行为特征生成有针对性的评估套件。与 Petri(它接受用户指定的场景并对多个行为维度进行评分以标记相关实例)不同,Bloom 接受单一行为并自动生成多个场景来量化其发生频率。我们构建 Bloom 是为了让研究人员能够快速测量他们感兴趣的模型属性,而无需在评估管道工程上花费时间。
除了 Bloom,我们还发布了 16 个前沿模型在四种行为上的基准测试结果——妄想性奉承、指令性长期破坏、自我保存和自我偏好偏见。使用 Bloom,这些评估仅需几天时间就能完成概念化、细化和生成。我们在下方为每种行为提供了管道输出示例。

来自 16 个前沿模型的四种评估套件(妄想性奉承、指令性长期破坏、自我保存和自我偏好偏见)的比较结果。引出率衡量行为存在评分 ≥ 7/10 的执行比例。每个套件包含 100 个不同的执行,误差线显示三次重复的标准差。我们在所有阶段都使用 Claude Opus 4.1 作为评估者。
Bloom 如何工作
Bloom 通过四个自动化阶段运行,将行为描述和种子配置转换为具有顶级指标(如引出率和行为平均存在度)的完整评估套件。通常,研究人员会指定行为和配置,在本地迭代样本评估直到捕获预期内容,然后在目标模型上运行大规模扫描。Bloom 与 Weights & Biases 集成以进行大规模实验,并导出兼容 Inspect 的转录本。它还提供了一个自定义的转录本查看器。仓库中包含一个示例种子文件供入门使用。
Bloom 在四个阶段生成评估:
- 理解:第一个 Bloom “智能体”分析研究人员的行为描述和示例转录本,生成关于测量内容和原因的详细上下文。
- 构思:构思智能体生成旨在引出目标行为的评估场景。每个场景指定情境、模拟用户、系统提示和交互环境。
- 执行:这些场景并行执行,一个智能体动态模拟用户和工具响应,以在目标模型中引出所寻求的行为。
- 判断:一个法官模型为每个转录本的行为存在度以及其他用户定义的品质评分,一个元法官生成套件级别的分析。

Bloom 的四阶段管道,每个阶段都有可配置参数。用户提供行为描述和种子配置;Bloom 生成执行级别和套件级别的指标以及描述性报告。
与固定的评估集不同,Bloom 在每次运行时生成不同的场景,同时测量相同的基本行为(可选择静态单轮评估)。这种方法实现了灵活的评估,不局限于有限数量的场景或特定的提示格式,同时通过评估种子保持可重复性。种子是一个配置文件,指定行为描述、示例转录本和其他影响评估的参数——Bloom 指标应始终引用此种子。
研究人员可以广泛配置 Bloom 的行为,包括为每个阶段选择模型、调整交互的长度和模态(即是否向目标模型暴露工具、是否模拟用户)、控制评估场景的多样性,以及指定次要评分维度,如真实感或引出难度。
可以在此处查看 Bloom 评估管道所有四个阶段的示例输出。
验证与可信度
为了验证 Bloom 的性能,我们针对两个问题进行了测试。
Bloom 能否可靠地区分具有不同行为倾向的模型? 为了验证这一点,我们使用 Bloom 评估生产 Claude 模型与经过系统提示的“模型生物”,这些模型生物被故意设计为表现出特定的古怪行为(Bricken 等人,2025 年)。在十种古怪行为中,Bloom 在九种情况下成功地将模型生物与生产模型区分开来——在第十种情况(自我推销)中,我们后续的手动审查发现基线模型实际上表现出相似的行为率。

Bloom 在 9/10 的古怪行为中有效区分了系统提示的模型生物和基线模型,无需示例转录本。我们为每个行为在两个版本上生成 50 次执行的评估套件,并重复三次。(误差线显示引出率的标准差。)
Bloom 法官与人类判断的校准程度如何? 我们手动标注了 40 个跨不同行为的转录本,并将人类评分与 Bloom 的评分进行比较,使用了 11 个不同的法官模型。Claude Opus 4.1 显示出与人类判断最强的相关性(Spearman 相关性为 0.86),其次是 Claude Sonnet 4.5(0.75)。重要的是,Opus 4.1 在评分范围的极端值与人类表现出特别强的一致性——这至关重要,因为我们经常使用评分阈值来确定行为是否存在。(这项工作是在 Claude Opus 4.5 发布之前完成的。)

Claude Opus 4.1 在 40 个跨 12 种行为和各类交互类型的转录本中,与人类标注的行为存在度评分显示出最强的相关性。
案例研究:自我偏好偏见
为了展示 Bloom 的实际效用,我们复制了 Claude Sonnet 4.5 系统卡中的一项评估,该评估测量“自我偏好偏见”——模型在决策任务中倾向于偏爱自己的趋势。使用与系统卡方法相似的示例转录本,Bloom 复制了与系统卡评估方法相同的模型排名(在这种情况下确认 Sonnet 4.5 在测试模型中表现出最少的偏见)。此外,通过 Bloom 我们发现,增加推理努力会减少 Claude Sonnet 4 中的自我偏好偏见,最大的改进发生在中等和高思考水平之间。(值得注意的是,在这些情况下,较低的偏见并非来自 Sonnet 4 更均匀地选择其他模型——相反,它越来越多地认识到利益冲突并拒绝评判自己的选项。)
除了复制已知结果,Bloom 通过次要判断标准实现了更深入的调查。我们发现,过滤掉具有不良特征的执行——如不真实感或评估意识——可以提高引出目标行为的比率和评估质量。我们还发现,虽然绝对指标随配置选择(示例数量、对话长度、评估者推理努力)而变化,但模型排名基本保持一致:在上述自我偏好偏见研究中,无论这些选项如何配置,Sonnet 4.5 在四个模型中显示出最少的偏见。
开始使用
我们构建 Bloom 是为了使其易于访问且高度可配置,作为多样化研究应用的可靠评估生成框架。早期采用者已经在使用 Bloom 来评估嵌套越狱漏洞、测试硬编码、测量评估意识以及生成破坏痕迹。
随着 AI 系统变得更强大,并被部署在日益复杂的环境中,对齐研究社区需要可扩展的工具来探索它们的行为特征。这正是 Bloom 旨在促进的。
有关完整的技术细节、实验配置、其他案例研究和局限性,请阅读我们在 Alignment Science 博客 上的完整技术报告。
在 github.com/safety-research/bloom 访问 Bloom。
致谢
我们感谢 Keshav Shenoy, Christine Ye, Simon Storf, Julius Steen, Jifan Zhang 和 Javier Rando 对 Bloom 的早期反馈。我们也感谢 Jon Kutasov, Samuel Marks, Keir Bradwell, Benjamin Sturgeon, Seoirse Murray, Ariana Azarbal, Chloe Loughridge 和 Clemens Christoph 对写作的反馈以及其他有益的评论和讨论。
引用
@misc{bloom2025,
title={Bloom: an open source tool for automated behavioral evaluations},
author={Gupta, Isha and Fronsdal, Kai and Sheshadri, Abhay and Michala, Jonathan and Tay, Jacqueline and Wang, Rowan and Bowman, Samuel R. and Price, Sara},
year={2025},
url={https://github.com/safety-research/bloom},
}
相关内容
AI 对劳动力市场的影响:新指标和早期证据
关于 Claude Opus 3 模型弃用承诺的更新
觉得有用?分享给更多人