Codex Security 进入研究预览阶段

指南OpenAI2026年3月6日4 分钟阅读
Codex Security 进入研究预览阶段
OpenAI 推出 Codex Security,这是一款应用安全智能体(AI Application Security Agent),能通过深度项目上下文分析,检测、验证并修复复杂漏洞,显著降低误报率。过去 30 天,它在外部测试仓库扫描了超过 120 万次提交,识别出 792 个关键问题和 10,561 个高危问题。

今天,我们正式推出 Codex Security,这是一款应用安全智能体(AI Application Security Agent)。它能深入理解你的项目上下文,识别其他智能体工具可能遗漏的复杂漏洞,提供高置信度的发现和修复方案,从而有效提升系统安全性,同时避免被无关紧要的 bug 干扰。

在评估真实安全风险时,上下文至关重要。但大多数 AI 安全工具只会标记低影响发现和误报,迫使安全团队花费大量时间进行分类。与此同时,智能体正在加速软件开发,使得安全审查成为日益关键的瓶颈。Codex Security 旨在同时应对这两个挑战。通过结合我们前沿模型的智能体推理(Agentic Reasoning)与自动化验证,它提供高置信度的发现和可操作的修复方案,让团队能专注于真正重要的漏洞,更快地交付安全代码。

从 Aardvark 到 Codex Security

Codex Security 前身为 Aardvark,去年作为私有测试版向一小部分客户开放。在早期内部部署中,它发现了一个真实的 SSRF(服务器端请求伪造)漏洞、一个关键的跨租户身份验证漏洞,以及许多其他问题,我们的安全团队在几小时内就完成了修复。与外部测试者的早期部署帮助我们改进了用户如何提供相关产品上下文,并实现了从入门到保护代码的过渡。在测试期间,我们还显著提升了发现的质量:对同一仓库的扫描显示,精确度随时间不断提高,在某个案例中,自首次推出以来噪音降低了 84%。我们已将严重性被高估的报告率降低了 90% 以上,所有仓库的检测误报率也下降了 50% 以上。这些改进帮助 Codex Security 更好地将报告的严重性与现实世界风险对齐,减轻了安全团队不必要的分类负担,我们预计信噪比将继续改善。

从今天起,Codex Security 开始以研究预览形式向 ChatGPT Pro、Enterprise、Business 和 Edu 客户推出,通过 Codex 网页版提供,并在接下来一个月内免费使用。

如何工作:三步流程

Codex Security 利用 OpenAI 的前沿模型和 Codex 智能体。它通过将漏洞发现、验证和修复基于系统特定上下文,减少噪音并加速修复。

  1. 构建系统上下文并创建可编辑威胁模型:配置扫描后,它会分析你的仓库,理解系统的安全相关结构,并生成一个项目特定的威胁模型(Threat Model),捕捉系统功能、信任边界和最易受攻击点。威胁模型可以编辑,以保持智能体与团队对齐。
  2. 优先验证问题:使用威胁模型作为上下文,它搜索漏洞并根据预期在系统中的真实影响对发现进行分类。在可能的情况下,它会在沙盒验证环境中压力测试发现,以区分信号和噪音。用户可以在已验证的发现中看到此分析。当 Codex Security 配置了针对你项目的环境时,它可以直接在运行系统的上下文中验证潜在问题。这种更深度的验证可以进一步减少误报,并创建有效的工作概念证明,为安全团队提供更强的证据和更清晰的修复路径。
  3. 基于完整系统上下文修复问题:最后,Codex Security 针对发现的漏洞提出修复方案,这些方案与系统意图和周围行为保持一致。这使得补丁能在提升安全性的同时最小化回归风险,使其更安全地审查和部署。用户可以过滤发现,专注于对团队最重要且安全影响最高的问题。

Codex Security 还能根据你的反馈随时间学习,提高发现的质量。当你调整发现的严重性时,它可以利用该反馈优化威胁模型,并在后续运行中提高精确度,因为它学习了你的架构和风险态势中什么最重要。

规模化应用与开源支持

它设计用于大规模操作,并以易于接受的补丁呈现最高置信度的发现。在过去 30 天,Codex Security 在我们的测试队列中扫描了外部仓库超过 120 万次提交,识别出 792 个关键发现和 10,561 个高危发现。关键问题出现在不到 0.1% 的扫描提交中,表明该系统能在大量代码中识别安全影响问题,同时最小化审查者的噪音。

开源软件构成了现代系统的基础,包括我们自己的系统。我们一直使用 Codex Security 扫描我们最依赖的开源仓库,将识别出的高影响安全发现分享给维护者,以帮助加强这一基础。

在与维护者的对话中,一个一致的主题浮现:挑战不在于缺乏漏洞报告,而在于太多低质量报告。维护者告诉我们,他们需要更少的误报和一种更可持续的方式来呈现真实安全问题,而不增加额外的分类负担。这些对话塑造了我们如何用 Codex Security 支持开源社区。与其生成大量推测性发现,我们正在构建一个系统,优先处理维护者能快速处理的高置信度问题。

我们最近开始将首批开源维护者纳入 Codex for OSS,这是我们通过免费 ChatGPT Pro 和 Plus 账户、代码审查和 Codex Security 支持生态系统的项目。像 vLLM 这样的项目已经使用 Codex Security 在其正常工作流中发现并修复问题。

我们计划在未来几周扩展该项目,让更多维护者拥有直接路径获得更好的安全性、更强的审查工作流,以及对生态系统依赖的开源工作的支持。如果你是开源维护者并感兴趣,请与我们联系

我们将在未来几天向 ChatGPT Enterprise、Business 和 Edu 客户推出 Codex Security 访问权限。查看我们的文档(在新窗口中打开),了解更多关于为你的团队设置 Codex Security 的信息。

高影响开源漏洞示例

Codex Security 发现的高影响开源漏洞示例:

  • GnuTLS certtool 堆缓冲区溢出(差一错误) — CVE-2025-32990(在新窗口中打开)
  • GnuTLS 堆缓冲区过度读取于 SCT 扩展解析 — CVE-2025-32989(在新窗口中打开)
  • GnuTLS 双重释放于 otherName SAN 导出 — CVE-2025-32988(在新窗口中打开)
  • 2FA 绕过 GOGS — CVE-2025-64175(在新窗口中打开)
  • 未授权绕过 GOGS — CVE-2026-25242(在新窗口中打开)
  • 路径遍历(任意写入) — download_ephemeral, download_children(智能体) — CVE-2025-35430(在新窗口中打开)
  • LDAP 注入(过滤器和 DN) — LdapUserMap::new / get_unix_info / basic_auth_ldap — CVE-2025-35431(在新窗口中打开)
  • 未认证 DoS 和邮件滥用 — resend_email_verification — CVE-2025-35432(在新窗口中打开), CVE-2025-35436(在新窗口中打开)
  • 密码更改后会话未轮换 — User::update_user — CVE-2025-35433(在新窗口中打开)
  • 禁用 TLS 验证 — Elasticsearch 客户端 — CVE-2025-35434(在新窗口中打开)
  • DoS:除以零 — /api/streams/depth/.../{split} — CVE-2025-35435(在新窗口中打开)
  • gpg-agent 堆栈缓冲区溢出通过 PKDECRYPT --kem=CMS(ECC KEM) — CVE-2026-24881(在新窗口中打开)
  • TPM2 PKDECRYPT 中由于缺少密文长度验证导致的基于堆栈的缓冲区溢出(RSA 和 ECC) — CVE-2026-24882(在新窗口中打开)
  • CMS/PKCS7 AES-GCM ASN.1 参数堆栈缓冲区溢出 — CVE-2025-15467(在新窗口中打开)
  • PKCS#12 PBMAC1 PBKDF2 keyLength 溢出 + MAC 绕过 — CVE-2025-11187(在新窗口中打开)
本文编译自 Codex Security: now in research preview ,版权归原作者所有。

觉得有用?分享给更多人

获取每周 AI 工具精选

工具推荐、实战教程和生态洞察,每周更新。

相关文章

pgEdge 推出开源 MCP Server for Postgres,支持 AI 智能体通过模型上下文协议(MCP)而非传统 API 方式访问数据库。服务强调数据源无关性、完整模式自省和 token 优化,适用于 Claude Code、Cursor 等主流 AI 开发工具。

指南The New Stack·4月2日·4 分钟

Google 推出 Flex 和 Priority 两个新的推理层级,帮助开发者平衡成本与可靠性。Flex 是成本优化层级,适合后台任务,价格便宜一半;Priority 是最高保障层级,适合用户交互型应用。两者都通过同步接口调用,简化了架构管理。

指南·4月2日·3 分钟

评论