SkillNav 交互指南 · P2

AI 安全护栏模拟器

5 种常见攻击的实时演示,对比无护栏 vs 有护栏的效果差异。了解防御纵深策略。

🎯 选择攻击类型

点击查看攻击原理和护栏防御效果的并排对比

🛡️ 防御纵深 — 四层护栏架构

没有单一护栏能挡住所有攻击。生产级系统需要多层防御,假设每一层都可能被突破。

1

输入过滤(Input Guardrails)

在请求到达 LLM 之前拦截恶意输入。正则匹配已知攻击模式、检测 prompt 注入关键词、限制输入长度和格式、PII 脱敏。

Regex 过滤器 Llama Prompt Guard Azure Prompt Shield PII 检测/脱敏
2

Prompt 架构(Prompt Construction)

通过 Prompt 设计本身增强安全性。用分隔符隔离用户输入、在 System Prompt 中教模型识别攻击、设定明确的行为边界和拒绝规则。

XML 分隔符 攻击识别指令 行为边界规则 最小权限原则
3

输出过滤(Output Guardrails)

在响应返回用户之前扫描敏感内容。检测数据泄露(API Key、密码、PII)、毒性检测、事实性验证、格式合规检查。

PII 扫描器 毒性分类器 Credential 检测 置信度阈值
4

运行时监控(Runtime Monitoring)

持续观测和响应异常行为。速率限制、成本预算、工具调用审计、异常模式检测、不可变日志记录。

速率限制 Token 预算 调用审计日志 异常检测告警

⚠️ 关键认识:护栏不是银弹

2025 年的研究表明,字符注入和对抗性 ML 技术可以绕过大多数单层护栏(包括 Azure Prompt Shield 和 Meta Prompt Guard),成功率高达 100%。没有任何单一防御层是不可突破的。正确的策略是:假设每一层都会被突破,通过多层叠加将攻击成功的概率降到可接受的水平,同时最小化每次突破的爆炸半径(blast radius)。

✅ LLM 应用安全清单

上线前逐项检查。点击标记为已完成。