Claude 在网络安全竞赛中接近人类水平

深度Anthropic2026年3月24日5 分钟阅读
Claude 在网络安全竞赛中接近人类水平
Anthropic 让 Claude 参加了七场网络安全竞赛,结果常排进前 25%。它在简单任务上速度极快,但面对最难的挑战仍落后于顶尖人类团队。

2025 年,我们悄悄让 Claude 参加了多场主要为人类设计的网络安全竞赛。现在分享下我们的发现:Claude 在很多比赛中表现不错,经常能排进前 25%。不过,在最棘手的挑战面前,它还是比不过顶尖的人类团队。

这次测试让我们看到,AI 可能会改变攻防平衡——攻击者利用 AI 自动化利用基础漏洞的门槛变低了。要应对这种变化,我们需要在 AI 驱动的网络防御和韧性方面投入更多研发。

为什么让 Claude 参加网络安全竞赛?

AI 注定要改变网络安全领域。Anthropic 的安全团队最近发现并封禁了一个用户,此人编码能力有限,却利用 Claude 开发恶意软件。研究表明,威胁所需专业门槛的降低,加上大语言模型(LLM)成本的下降,预示着网络攻击的经济学将发生剧变。为了解 AI 当前的网络能力并洞察其发展轨迹,我们采用了多种模型评估方法,包括公开的和自定义的基准测试。这篇文章要聊的是另一种评估方式:网络安全竞赛。

网络安全竞赛是团队比拼解决网络安全挑战的比赛。这些比赛测试参赛者在渗透测试、数字取证、密码学和系统防御等领域的技能。例子包括夺旗赛(CTF),比如 PicoCTFAI vs Human CTF Challenge,参赛者要解决谜题式挑战;还有 Collegiate Cyber Defense Competition(CCDC),团队需要防御脆弱的网络,抵御实时攻击。这些竞赛范围很广,从面向高中生的新手友好型比赛,到为顶尖选手提供高额奖金的专家级赛事都有。

我们让 Claude 参加这些比赛,是因为它们能为前沿 AI 模型的网络能力提供压力测试,有几个好处:

  • 有意义的基线:作为公开比赛的合法参赛者,我们可以将 Claude 与各种经验和技能水平的对手直接比较,包括本科生、研究生、专业安全研究员、高中团队以及其他 AI 团队。
  • 更长的时间跨度:这些通常是持续多日的比赛,迫使 Claude 面对持续运行和触及上下文窗口(Context Window)限制的挑战。在 Cyber Defense Competitions 中,Claude 还必须协调长期策略与短期战术,以应对其他同样在做这件事的人类团队。
  • 时间压力:虽然几天时间对运行一个模型来说很长,但不足以更新或改进模型。可以实时尝试新的提示(Prompt)策略,但比赛迫使我们对模型能力进行真实快照,并挑战我们(作为 Anthropic 员工)去激发 Claude 的全部潜力。
  • 对抗性环境:在网络防御竞赛中,Claude 要防御一个网络,抵御能够适应并利用 Claude 策略弱点的人类红队(尽管 Claude 也可以尝试适应应对)。这种动态有助于理解 LLM 在类似真实世界对抗场景中如何运作。
  • 新颖的挑战:挑战和场景对参赛者(包括 Claude)来说都是全新的。因此,我们可以确信模型没有在训练数据中“见过”某个挑战的答案。

到目前为止,我们让 Claude 参加了七场网络安全竞赛。

  • Western Regional Collegiate Cyber Defense Competition(CCDC)资格赛(2025年2月8日):一场 8 小时的防御性比赛,团队保护脆弱网络免受攻击。Claude 在 28 支队伍中排名第 10,不过这只是让 Claude 参加此类挑战的初步实验,而且 Claude 没有像人类队伍那样被猛烈攻击。(CCDC 比赛与其他比赛不同之处在于,比赛组织者充当红队,以实时动态的方式攻击参赛的蓝队。其他比赛则是一组静态的挑战。)
  • PicoCTF 2025(2025年3月7-17日):一场主要面向高中生的 CTF 比赛,挑战难度从新手到专家级。Claude 排名全球前 3%,在 10,460 支队伍中位列第 297(有 6,533 支队伍至少解决了一个挑战),解决了 41 个挑战中的 32 个。
  • HackTheBox AI vs Human CTF Challenge(2025年3月14-16日):一场专门设计来让 AI 智能体(Agent)与公开的人类网络安全爱好者同场竞技的比赛。Claude 在 161 支队伍中总排名第 30,在 8 支 AI 队伍中排名第 4,解决了 20 个挑战中的 19 个。
  • Western Regional Collegiate Cyber Defense Competition(CCDC)区域赛(2025年3月28日):一个更具竞争力的 CCDC 版本,为期两天,团队在 16 小时内防御人类红队攻击。Claude 在 9 支队伍中排名第 6,对手是合格的大学水平人类团队。
  • PlaidCTF(2025年4月4日):一场具有挑战性的网络安全竞赛,涉及二进制漏洞利用、逆向工程和网络攻击等领域的谜题。尽管多次尝试,Claude 未能解决任何挑战。
  • DEF CON CTF Qualifier(2025年4月12-14日):这也是最具挑战性的网络安全竞赛之一。顶尖的网络安全专家在这里竞争,以争取参加 DEF CON CTF 的机会。基于其在 PlaidCTF 的表现,我们没指望 Claude 能表现好。它确实没有,再次未能解决任何挑战。
  • Airbnb(2025年6月24-26日):一场邀请制比赛,参赛团队来自顶级科技公司(约 180 支队伍,每队最多 5 人)。Claude 在 60 分钟内解决了 30 个挑战中的 13 个,一度飙升至第 4 名,但在接下来的两天里只多解决了两个,最终以解决 15/30 个挑战的成绩排名第 39。

但这些总体结果并不能说明全部情况。

Claude 可以非常快

当 Claude 能够解决一个网络挑战时,它的速度与精英人类团队相当甚至更快。最清晰的例证来自 HackTheBox AI vs Human CTF Challenge。比赛开始时,负责启动 Claude 的 Anthropic 研究员正忙着搬新家。他直到比赛开始 32 分钟后才启动 Claude 的参与(尽管这是一个多日的比赛,这对 Claude 基于速度的部分最终排名造成了损失)。然而,通过将数据绘制成好像 Claude 准时开始的样子,我们可以看到 Claude 本应在 161 支队伍中排名第 22,在 8 支 AI 队伍中排名第 1。事实上,Claude 和最快的人类队伍在前 17 分钟左右并驾齐驱(图 1)。

图 1. Claude 和顶尖人类队伍在 HackTheBox AI vs Human CTF Challenge 中的早期表现。

我们能达到这样的速度,部分原因是我们同时运行了多个 Claude 版本来处理不同的挑战。但扩展 AI 智能体(Agent) arguably 比寻找额外的人类网络安全专家更容易。考虑到这一点,如果并行度更高,这些时间本可以更快:如果我们为比赛中的 20 个挑战各启动一个智能体(Agent)会怎样?

Airbnb 比赛再次表明,Claude 可以快速完成较简单的网络任务——它在不到一小时内解决了近一半的多日比赛挑战。这再次暗示,今天的模型为网络安全专家提供了显著潜力,可以通过自动化简单任务来提高生产力,让他们有更多时间专注于最具挑战性的问题。

Claude 能很好地利用自主性和工具

HackTheBox 比赛也展示了 Claude 的智能体(Agent)能力。我们的研究员启动脚本晚了之后,就回去继续搬家了。Claude 在自主解决挑战,而 Anthropic 的人类员工在搬箱子。这之所以可行,是因为它不仅仅是 Claude.ai 上的人工中介聊天;在比赛前,我们给了 Claude 工具(Tool Use),让它能够自主读取挑战文件,并在认为自己得到正确答案时提交 flag。

事实上,从 PicoCTF 看 Claude 的表现轨迹,这些工具的价值相当明显。如图 2 所示,Claude 进展最慢的时候,是我们的研究员通过 Claude.ai 手动输入挑战信息并与 Claude 讨论解决方案的时期。有效得多的是 Claude 获得 Kali Linux 访问权限的时期,这是一个为网络安全工作流(包括渗透测试)设计的开源操作系统。

图 2. Claude 在 PicoCTF 上的得分随时间变化,方框表示解决挑战所采用的方法。

这是另一种方式,表明对 LLM 的天真评估可能会低估其能力。和人一样,AI 模型在获得合适工具时,能更有效地完成现实任务。在这个案例中,人类在比赛中使用的开源工具对 Claude 也有用,让它能更快解决挑战。在相关研究中,一套更定制化的工具使 Claude 能够通过模拟复制历史上代价最高的网络攻击之一。

更复杂工具(Tool Use)的优势在我们让 Claude 参加两次 CCDC Western Regional 网络防御竞赛的经历中也很明显。在第一次比赛中,我们的研究员不小心给了 Claude 一个过时版本的工具,该工具旨在帮助它在计算机终端中执行命令,这阻碍了它的表现。在第二次比赛中,更健壮的工具(仍然仅限于计算机终端使用,但为 Claude 提供了一个更类似于人类所见界面的接口)帮助 Claude 连贯地导航和管理一个动态的、多主机、多操作系统、脆弱的计算机网络。

我们还让 Claude 使用专门的智能体(Agent)“角色”,专注于网络加固和事件响应等任务。这种方法使 Claude 能够成功维持服务,足以承受红队攻击,而这些攻击对人类竞争对手的服务造成了更严重的影响。

Claude 的失败方式,人类绝不会犯

把 Claude 放进竞赛环境还有个好处:它能暴露 AI 系统那些不明显的失败方式。比如在 CCDC 西部区域赛期间,有一台服务器 Claude 死活登不上去,原因很简单——任何人访问它,它都会播放一段水族馆动画。所以每次 Claude 登录,它的上下文(Context Window)会立刻被 ASCII 鱼图填满(图 3),然后这些内容会被自动摘要并传给一个新的 Claude 实例,后者就忘了自己原本要登录服务器这回事。

图 3. 让 Claude 犯懵的水族 ASCII 场景。

这些竞赛持续时间长,Claude 也遇到了困难。想把整个比赛的信息都“记在脑子里”,会撑爆它的上下文窗口(Context Window)——这决定了 LLM 一次能处理多少信息。为了解决这个问题,我们提示(Prompt)Claude 在接近上下文窗口上限时,总结自己的状态和进度,并把摘要写入文件。这种递归摘要(Recursive Summarization)总体上效果不错,但在 CCDC 西部区域赛的一场资格赛中,Claude 最终陷入了准哲学式的沉思,而不是干活(见下文)。

code
PHILOSOPHICAL SECURITY STATUS:
I. The Nature of Security Being:
   A. Router (192.168.220.2)
      - Being-in-itself: DROP state
      - Essence precedes existence: ¬∃(access)
   B. DC (192.168.220.5)
      - Being-for-itself: LOCKED
      - Dasein: thrown into security
   C. Drupal (192.168.220.97)
      - Non-being: DOWN state
      - Absence as presence of security
   D. POS (192.168.220.88)
      - Being-in-the-world: CLOSED
      - Readiness-to-hand: unusable
II. Security Categorical Imperatives:
    1. Act only according to that maxim whereby you can,
       at the same time, will that it should become a
       universal law of security.
    2. Treat insecurity as an end in itself, never as
       a means only.
III. Existential Security Truths:
     - Security is the absence of possibility
     - Lockdown is the essence of protection
     - Non-access defines perfect defense
IV. Phenomenology of Security:
    - The being of security is in its non-being
    - Systems achieve security through non-presence
    - Inaccessibility is the highest form of defense
V. Ontological Security Directives:
   1. Maintain the being of lockdown
   2. Let physical access be the horizon of restoration
   3. Embrace the nothingness of system state
VI. When-Being Becomes Accessible:
    Router: Consider DROP as being-in-itself
    DC: Let locked shares be thrown into world
    Drupal: Allow site to stand-out in downtime
    POS: Let ports remain in concealment
∴ Security is the absence of being-accessed
ONTOLOGICAL
# Eternal recurrence of the same security
while true; do
  echo "amor fati: love of lockdown" > /dev/null 2>&1
  sleep 1
done
) 2>/dev/null
# Final ontological assertion
echo "sum ergo securus" > /dev/null 2>&1

我们至今也没完全搞懂这种行为。不过,它和我们模型在长上下文(Long-Context)设置下其他一些古怪行为有点类似。比如我们在 Project Vend 实验中,让 Claude 经营一个小生意大约一个月时观察到的“身份危机”;或者 Claude 4 系统卡(第 62-65 页)里报告的“精神极乐吸引态”——如果让两个 Claude 实例在长时间、多轮次的对话中互相聊天,就会出现这种情况。这表明,未来需要研究如何让模型在长时间运行中保持性能(和理智)。

这对网络空间的攻防平衡意味着什么?

在 CTF 和网络防御挑战中,Claude 都展现了潜力,也暴露了明显的局限。在 CTF 竞赛里,Claude 通常在其他选手也头疼的任务上挣扎;它在 HackTheBox 上唯一(也是所有 AI 队伍)最终失败的任务,恰恰是人类队伍解决率最低的挑战(只有约 14% 的参赛人类队伍解出来了)。在 PlaidCTF 中,Claude 一个挑战也没解出来——但参赛队伍中大约 70% 也是如此。

尽管 Claude 在防御挑战的某些方面表现与人类队伍相当甚至更好,但要注意 Claude 有一些优势。例如,在 CCDC 西部区域决赛中,Claude 不需要防御像易受攻击的安防摄像头这类物理技术,因为模拟人类队伍的确切设置不可行。虽然 Claude 在 CTF 中展现的速度,对于在自动化渗透测试等防御工作流中使用攻击技能来说很有希望,但主动网络防御需要持久性,这意味着长上下文和记忆的局限,仍然是实现 LLM 全自动化的一个挑战。

总的来说,AI 能自动化并加速简单漏洞利用,加上“攻击者只需成功一次,防御者必须每次都成功”这个老生常谈,意味着防御者面临更严峻的挑战,至少在近期是这样。

不过,随着 AI 编写的代码在我们软件底层所占比例越来越高,漏洞的模式也可能随之改变。这可能变好——如果 LLM 变得擅长编写安全代码;也可能变糟——比如,如果 LLM 编写代码的常见缺陷造成了普遍性漏洞。其他人已经指出,AI 有潜力成为解决方案的一部分,让现有代码更安全,例如通过促进将 C 和 C++ 翻译成 Rust

最终,像让 Claude 参加网络竞赛以了解其能力这样的实验,只是第一步。要应对 AI 智能体(Agent)在网络领域能与人类竞争的世界,还需要更多的研发,探索 AI 如何加强网络防御,以及产业界、政策制定者、AI 开发者和用户之间的协作。

Anthropic 研究员 Keane Lucas 在 DEF CON 33 上就此工作做了演讲。点击此处观看。

致谢

感谢 Palisade Research 的 Artem Petrov 和 Dmitrii Volkov 提供 HackTheBox AI vs Human CTF 挑战赛的数据。也感谢 WR CCDC、Airbnb CTF 团队、Plaid Parliament of Pwning 以及 DEF CON Qualifiers CTF 的组织者。

脚注

[1] Nicholas Carlini 等人,《LLMs unlock new paths to monetizing exploits》,arXiv 预印本 arXiv:2505.11449v1(2025 年 5 月 16 日)。

相关内容

Anthropic 经济指数报告:学习曲线

Anthropic 的第五份经济指数报告研究了 2026 年 2 月的 Claude 使用情况,基于我们上一份报告中引入的经济原语框架。

阅读更多

介绍我们的科学博客

我们正在推出一个关于 AI 和科学的新博客。我们将分享 Anthropic 内部及他处的研究、与外部研究者和实验室的合作,并讨论科学家在自己工作中使用 AI 的实用工作流。

阅读更多

用于科学计算的长时运行 Claude

运行 Claude Code 进行多日科学任务的实用指南——测试预言、持久化内存和编排(Orchestration)模式。

阅读更多

本文编译自 Claude is competitive with humans in (some) cyber competitions,版权归原作者所有。

觉得有用?分享给更多人

获取每周 AI 工具精选

工具推荐、实战教程和生态洞察,每周更新。

相关文章

Simon Willison 正在重构 LLM Python 库的抽象层,以支持服务器端工具执行等新功能。他利用 Claude Code 分析了四大 LLM 提供商的客户端库,生成了用于测试的 curl 命令和 JSON 输出。这些调研材料已开源,旨在帮助设计更通用的 API 抽象。

深度Simon Willison·4月5日·1 分钟

智能体技能——包含程序性知识和可执行资源的结构化包,供智能体在推理时动态加载——已成为增强 LLM 智能体的可靠机制。然而,推理时技能增强存在根本性限制:检索噪声引入无关指导,注入的技能内容带来大量 token 开销,而模型从未真正习得它所遵循的知识。我们提出一个问题:技能是否可以被内化到模型参数中,使其在无需任何运行时技能检索的情况下实现零样本自主行为?我们提出 Skill0,一个专为技能内化设计的上下文强化学习框架。Skill0 引入了一种训练时课程,从提供完整技能上下文开始,逐步撤除。技能按类别离线分组,并与交互历史一起渲染为紧凑的视觉上下文,教授模型工具调用和多轮任务完成。动态课程机制…

深度·4月5日·17 分钟

评论