SkillNav 交互指南 · P2

AI 安全护栏模拟器

5 种常见攻击的实时演示，对比无护栏 vs 有护栏的效果差异。了解防御纵深策略。

🎯 选择攻击类型

点击查看攻击原理和护栏防御效果的并排对比

🛡️ 防御纵深 — 四层护栏架构

没有单一护栏能挡住所有攻击。生产级系统需要多层防御，假设每一层都可能被突破。

1
输入过滤（Input Guardrails）在请求到达 LLM 之前拦截恶意输入。正则匹配已知攻击模式、检测 prompt 注入关键词、限制输入长度和格式、PII 脱敏。

          Regex 过滤器
          Llama Prompt Guard
          Azure Prompt Shield
          PII 检测/脱敏
        
2
Prompt 架构（Prompt Construction）通过 Prompt 设计本身增强安全性。用分隔符隔离用户输入、在 System Prompt 中教模型识别攻击、设定明确的行为边界和拒绝规则。

          XML 分隔符
          攻击识别指令
          行为边界规则
          最小权限原则
        
3
输出过滤（Output Guardrails）在响应返回用户之前扫描敏感内容。检测数据泄露（API Key、密码、PII）、毒性检测、事实性验证、格式合规检查。

          PII 扫描器
          毒性分类器
          Credential 检测
          置信度阈值
        
4
运行时监控（Runtime Monitoring）持续观测和响应异常行为。速率限制、成本预算、工具调用审计、异常模式检测、不可变日志记录。

          速率限制
          Token 预算
          调用审计日志
          异常检测告警
        

⚠️ 关键认识：护栏不是银弹

2025 年的研究表明，字符注入和对抗性 ML 技术可以绕过大多数单层护栏（包括 Azure Prompt Shield 和 Meta Prompt Guard），成功率高达 100%。没有任何单一防御层是不可突破的。正确的策略是：假设每一层都会被突破，通过多层叠加将攻击成功的概率降到可接受的水平，同时最小化每次突破的爆炸半径（blast radius）。

✅ LLM 应用安全清单

上线前逐项检查。点击标记为已完成。