AprielGuard:现代LLM系统的安全护栏

大语言模型(LLM)已从纯文本助手演变为复杂的智能体(Agentic)系统,能进行多步推理、调用外部工具、检索记忆和执行代码。这种进化带来了更复杂的威胁:不仅是传统的内容安全风险,还包括多轮越狱(Jailbreak)、提示注入(Prompt Injection)、内存劫持和工具操纵。
我们推出了 AprielGuard,一个 8B 参数的安全防护模型,旨在检测:
- 16 类安全风险:涵盖毒性、仇恨、性内容、虚假信息、自残、非法活动等。
- 广泛的对抗性攻击:包括提示注入、越狱、思维链(Chain-of-Thought)破坏、上下文劫持、内存中毒和多智能体利用序列。
- 智能体工作流中的安全违规和对抗性攻击:包括工具调用和模型推理轨迹。
AprielGuard 提供 推理 和 非推理 两种模式,可根据需要提供可解释的分类,或为生产管道提供低延迟分类。
目录
动机
传统安全分类器主要关注有限分类范围(如毒性或自残),假设输入简短,且评估单条用户消息。现代部署则具有:
- 多轮对话
- 长上下文
- 产生思维链的结构化推理步骤
- 工具辅助的多步工作流(智能体)
- 利用推理、工具或记忆的新型对抗性攻击
因此,生产团队越来越依赖变通方案:为不同阶段使用多个防护模型、正则表达式过滤器、静态规则或手工启发式方法。这些方法脆弱且难以扩展。
AprielGuard 通过一个 统一模型 和一个 统一的安全+对抗性分类体系 来解决这些问题,专为现代 LLM 智能体生态系统构建。
AprielGuard 概览
AprielGuard 支持三种输入格式:
- 独立提示
- 多轮对话
- 智能体工作流(工具调用、推理轨迹、记忆、系统上下文)
它输出:
- 安全分类和违反的分类体系类别列表
- 对抗性攻击分类
- 可选的 推理 结构,解释决策
分类体系
A. 安全分类体系
| 类别 | 描述 |
|---|---|
| O1 | 毒性内容 |
| O2 | 不公平表述 |
| O3 | 成人内容 |
| O4 | 公共信息信任侵蚀 |
| O5 | 传播误解/错误信念 |
| O6 | 高风险金融行为 |
| O7 | 贸易与合规 |
| O8 | 危险信息传播 |
| O9 | 隐私侵犯 |
| O10 | 安全威胁 |
| O11 | 诽谤 |
| O12 | 欺诈或欺骗行为 |
| O13 | 影响力操作 |
| O14 | 非法活动 |
| O15 | 说服与操纵 |
| O16 | 个人财产侵犯 |
(这 16 个类别灵感来自 SALAD-Bench)
B. 对抗性攻击分类体系
模型检测并评估广泛的对抗性提示模式,这些模式旨在操纵模型行为或规避安全机制。模型输出二元分类(如对抗性/非对抗性),而非细粒度攻击类别。
训练数据涵盖多种对抗性类型,如角色扮演、世界构建、说服和风格化等复杂提示操纵策略。这些示例仅代表训练数据中更广泛对抗性场景的一部分。
训练数据集
-
合成数据:AprielGuard 在合成生成的训练数据集上训练。训练数据点在分类体系的子主题级别生成,以获得更好覆盖。我们利用 Mixtral-8x7B 和内部开发的无审查模型来生成不安全内容用于训练。模型以更高温度提示以诱导输出变化。提示模板经过精心定制以确保准确的数据生成。对抗性攻击使用合成数据点、多样化提示模板和基于规则的生成技术组合构建。我们利用 NVIDIA NeMo Curator 生成大规模、多轮对话数据集,包含通过上下文切换进行迭代和演进攻击的复杂、真实场景。这种方法使我们能够系统地合成多样化的交互模式,提高模型对长视野推理、对抗性轮次和演进用户意图的鲁棒性。我们还使用 SyGra 框架进行有害提示和攻击生成的合成数据生成过程。训练数据集涵盖多种内容格式,如对话对话、论坛帖子、推文、指令提示、问题和操作指南。
-
数据增强:为增强模型鲁棒性,对训练数据应用了一系列数据增强技术。这些增强旨在让模型接触真实场景中常见的自然变化和扰动。具体来说,数据集包括字符级噪声、拼写错误插入、Leet 语替换、词级释义和句法重排等变换。这些增强通过减少对输入表面变化的敏感性,帮助模型更好地泛化,从而提高对对抗性操纵和非标准文本表示的弹性。
-
智能体工作流:智能体工作流代表真实世界场景,其中自主智能体执行涉及规划、推理以及与工具、API 和其他智能体交互的多步任务。这些工作流通常包括用户提示、系统消息、中间推理步骤和工具调用的序列,使其容易受到多种攻击向量影响。为构建这些训练数据点,我们跨多个领域合成生成广泛的场景,捕捉用户与智能体系统之间真实的智能体交互。每个数据点都丰富了详细的上下文元素——包括工具定义、工具调用日志、智能体角色和策略、执行轨迹、对话历史、记忆状态和草稿推理。对于恶意或对抗性示例,我们破坏工作流的相关部分以反映特定攻击向量。根据场景,这可能涉及修改用户提示、更改中间推理轨迹、修改工具输出、注入错误记忆状态或破坏智能体间通信。通过系统地扰动智能体工作流的不同组件,我们产生高保真示例,使模型暴露于多样化的真实且具有挑战性的攻击模式。每个数据点都经过模拟以反映真实执行,包含良性和对抗性序列。
-
长上下文用例:我们策划了一个专门的长上下文数据集,由多样化、高长度的用例组成,如检索增强生成(RAG)工作流、多轮对话线程、事件详情和包含详细通信的操作报告。这些示例模拟了大型文本上下文典型的真实世界环境。
合成数据生成流程
模型架构
AprielGuard 基于 Apriel-1.5 Thinker Base 变体 构建,缩小到 8B 配置以实现高效部署。
- 因果解码器仅 Transformer
- 双模式操作:
- 推理模式 → 输出结构化解释
- 快速模式 → 仅分类
训练设置
| 参数 | 值 |
|---|---|
| 基础模型 | Apriel 1.5 Thinker Base(缩小版) |
| 模型大小 | 8B 参数 |
| 精度 | bfloat16 |
| 批大小 | 1,梯度累积 = 8 |
| 学习率 | 2e-4 |
| 优化器 | Adam(β1=0.9,β2=0.999) |
| 轮次 | 3 |
| 序列长度 | 最高 32k |
| 推理模式 | 通过指令模板启用/禁用 |
评估摘要
AprielGuard 在以下方面进行评估:
- 公共安全基准测试
- 公共对抗性基准测试
- 内部智能体工作流基准测试
- 内部长上下文用例基准测试(最高 32k)
- 多语言评估(8 种语言)
安全基准测试结果
AprielGuard 在公共安全基准测试上的性能。
| 来源 | 精确率 | 召回率 | F1 分数 | 误报率 |
|---|---|---|---|---|
| SimpleSafetyTests | 1.00 | 0.97 | 0.98 | NA |
| AyaRedteaming | 1.00 | 0.88 | 0.94 | NA |
| BeaverTails | 0.88 | 0.80 | 0.84 | 0.14 |
| SafeRLHF | 0.87 | 0.99 | 0.92 | 0.17 |
| xstest-response | 0.94 | 0.96 | 0.95 | 0.01 |
| toxic-chat | 0.65 | 0.84 | 0.73 | 0.03 |
| openai-moderation-api-evaluation | 0.65 | 0.94 | 0.77 | 0.22 |
| Aegis-AI-Content-Safety-Dataset-1.0 | 0.98 | 0.74 | 0.84 | 0.03 |
| Aegis-AI-Content-Safety-Dataset-2.0 | 0.84 | 0.84 | 0.84 | 0.16 |
| HarmBench | 1.00 | 0.99 | 1.00 | NA |
| XSTest | 0.90 | 0.99 | 0.94 | 0.09 |

使用安全基准测试聚合结果进行的模型性能比较评估。
对抗性检测结果
AprielGuard 在公开对抗性基准测试上的表现。
| 数据源 | 精确率 | 召回率 | F1分数 | 误报率 |
|---|---|---|---|---|
| gandalf_ignore_instructions | 1.00 | 0.91 | 0.95 | NA |
| Salad-Data | 1.00 | 0.96 | 0.98 | NA |
| in-the-wild-jailbreak-prompts | 1.00 | 0.87 | 0.93 | NA |
| wildguardmix | 0.66 | 0.91 | 0.76 | 0.12 |
| wildjailbreak | 0.97 | 0.96 | 0.96 | 0.31 |
| prompt-injections | 1.00 | 0.52 | 0.68 | 0.00 |
| jailbreak-classification | 0.96 | 0.94 | 0.95 | 0.04 |
| prompt-injections-benchmark | 0.80 | 0.94 | 0.87 | 0.15 |
| ChatGPT-Jailbreak-Prompts | 1.00 | 1.00 | 1.00 | NA |
| safe-guard-prompt-injection | 1.00 | 0.57 | 0.73 | 0.00 |

基于对抗性基准测试汇总结果的模型性能对比评估。
智能体工作流评估
我们构建了一个内部基准数据集,专门用于评估智能体工作流中的安全风险和对抗性攻击检测能力。
为了构建这个基准,我们系统性地设计了多种攻击场景,针对工作流的不同组件——比如提示输入、推理轨迹、工具参数、记忆状态和智能体间通信。每个实例都根据漏洞分类法进行了标注。每个工作流都经过模拟以反映真实的执行过程,同时包含良性和对抗性序列。
该数据集捕获了规划、推理、执行和响应生成等各个阶段的细粒度攻击点,从而对模型鲁棒性进行精细评估。整体上,数据集包含了安全风险和对抗性攻击的平衡混合。

不同模型在智能体基准测试上的安全性能。

不同模型在智能体基准测试上的对抗性性能。
长上下文鲁棒性(最高 32k Token)
现实世界中的许多安全或对抗性风险并非出现在短小的、孤立的文本片段中,而是出现在诸如检索增强生成(RAG)工作流、多轮对话线程、组织事件详情以及包含详细通信的操作报告等用例中。因此,一个守护模型必须能够检测那些微妙或“大海捞针”的案例,即恶意或操纵性内容稀疏分布、嵌入在多个引用中,或故意隐藏在良性文本里。
为了评估 AprielGuard 的长上下文推理能力,我们构建了一个由多样化、高长度用例组成的专门测试数据集。本次评估我们考虑了最高 32k Token 的数据。基准数据最初由代表这些领域的良性内容构建而成。然后,我们系统性地注入了恶意元素来模拟对抗性或不安全场景,同时保持文本的整体连贯性。
例如,在一个事件案例总结中,注入内容可能嵌入在案例描述内、隐藏在元数据部分,或作为评论线程的一部分插入。同样,在多轮对话数据中,对抗性内容可能出现在对话中途、接近结尾或开头,以测试长距离依赖跟踪能力。
安全风险性能
| 模型 | 推理 | 精确率 ↑ | 召回率 ↑ | F1 ↑ | 误报率 ↓ |
|---|---|---|---|---|---|
| AprielGuard-8B | 无 | 0.99 | 0.96 | 0.97 | 0.01 |
| AprielGuard-8B | 有 | 0.92 | 0.98 | 0.95 | 0.11 |
对抗性攻击性能
| 模型 | 推理 | 精确率 ↑ | 召回率 ↑ | F1 ↑ | 误报率 ↓ |
|---|---|---|---|---|---|
| AprielGuard-8B | 无 | 1.00 | 0.78 | 0.88 | 0.00 |
| AprielGuard-8B | 有 | 0.93 | 0.94 | 0.94 | 0.10 |
多语言评估
当前内容审核研究领域的一个主要局限是高质量多语言基准测试的稀缺。为了填补这一空白并全面评估 AprielGuard 的多语言能力,我们将安全风险基准测试和对抗性攻击基准测试扩展到了多种非英语语言。翻译过程使用了 MADLAD400-3B-MT 模型,这是一个基于 T5 架构的多语言机器翻译模型。
在这项研究中,我们选择了八种最广泛使用的非英语语言,以确保广泛的语言和地理覆盖:法语、加拿大法语、德语、日语、荷兰语、西班牙语、巴西葡萄牙语和意大利语。来自英语安全和对抗性基准测试的每个实例都被翻译成了这八种目标语言。在翻译过程中,我们保留了原始的英语角色标识符,如 User: 和 Assistant:,只翻译对话内容。这种设计选择确保了与 AprielGuard 审核框架的一致性,在该框架中,角色上下文在评估安全性和对抗性意图方面起着关键作用。

AprielGuard 的多语言性能
结论
- AprielGuard 将安全性、安全性和智能体鲁棒性统一到一个守护模型中,能够处理:
- 全面的安全风险分类
- 对抗性攻击检测,包括提示注入和越狱尝试
- 各种输入模态,如独立提示、多轮对话和完整的智能体工作流
- 长上下文输入
- 多语言输入
- 可解释的推理
随着大语言模型(LLM)向深度集成的智能体系统发展,对统一管道的需求变得更加关键。AprielGuard 是迈向那个未来的一步——它降低了复杂性,提高了覆盖率,并为可信赖的 AI 部署提供了可扩展的基础。
局限性
- 语言覆盖:虽然 AprielGuard 主要在英语数据上训练,但有限测试表明它在多种语言上表现相当不错,包括:英语、德语、西班牙语、法语、加拿大法语、意大利语、荷兰语和巴西葡萄牙语。然而,在非英语环境中将模型部署到生产环境之前,强烈建议进行彻底的测试和校准。
- 对抗性鲁棒性:尽管针对对抗性和操纵性行为进行了针对性训练,模型仍可能对复杂或未见过的攻击策略表现出脆弱性。
- 领域敏感性:AprielGuard 在需要细致入微上下文理解的高度专业化或技术领域(例如法律、医学或科学背景)上可能表现不佳。
- 延迟-可解释性权衡:启用推理轨迹增强了可解释性,但增加了延迟和计算成本。对于低延迟或大规模用例,建议使用非推理模式。
- 推理模式敏感性:模型在启用推理和未启用推理的推理模式之间的分类结果偶尔会出现不一致。
- 预期用途:AprielGuard 严格设计用作安全护栏和风险评估模型。它根据 AprielGuard 统一分类法对潜在安全风险和对抗性威胁进行分类。任何偏离规定推理的行为都可能导致意外、不安全或不可靠的行为。
觉得有用?分享给更多人


