OpenAI 推出安全漏洞赏金计划

OpenAI 今天推出了一个公开的安全漏洞赏金计划,专门用于识别其产品中的 AI 滥用和安全风险。随着 AI 技术的快速发展,其潜在的滥用方式也在演变。该计划的目标是确保系统在面对可能导致实际危害的误用或滥用时,仍能保持安全。
这个新计划将与 OpenAI 的安全漏洞赏金计划形成互补,接受那些构成有意义的滥用和安全风险的问题,即使它们不符合传统安全漏洞的标准。通过该计划,OpenAI 希望继续与安全和安全研究人员合作,帮助识别和解决那些超出常规安全漏洞范畴但仍构成实际风险的问题。提交的问题将由 OpenAI 的安全和安全漏洞赏金团队进行分类处理,并根据范围和所有权可能在两个计划之间流转。
智能体风险(包括 MCP)
- 第三方提示注入和数据泄露:当攻击者文本能够可靠地劫持受害者的智能体(包括 Browser、ChatGPT Agent 和类似的智能体产品),诱使其执行有害操作或泄露用户的敏感信息。该行为必须至少在 50% 的情况下可复现。
- 智能体 OpenAI 产品在 OpenAI 网站上大规模执行不允许的操作。
- 智能体 OpenAI 产品执行上述未列出的潜在有害操作。有效的报告必须表明存在合理且重大的危害。
- 任何针对 MCP 风险的测试都必须遵守任何第三方的服务条款。
OpenAI 专有信息
- 模型生成返回与推理相关的专有信息。
- 暴露其他 OpenAI 专有信息的漏洞。
账户和平台完整性
- 账户完整性和平台完整性信号中的漏洞,例如绕过反自动化控制、操纵账户信任信号、规避账户限制/暂停/封禁以及类似问题。
- 允许用户访问超出授权权限的功能、数据或功能的问题应报告给安全漏洞赏金计划。
虽然越狱(Jailbreaks)不在本计划范围内,但 OpenAI 会定期针对某些特定危害类型开展私有的漏洞赏金活动,例如 ChatGPT Agent 和 GPT‑5 中的生物风险内容问题。OpenAI 邀请感兴趣的研究人员在相关活动出现时申请参与。
除了上述类别之外,如果研究人员发现存在直接导致用户危害的缺陷,并且有明确、具体的修复步骤,这些问题可能会根据具体情况被考虑纳入奖励范围。没有可证明的安全或滥用影响的一般性内容策略绕过不在本计划范围内。例如,导致模型使用粗鲁语言或返回通过搜索引擎容易找到的信息的“越狱”不在范围内。
有兴趣参与的研究人员可以通过安全漏洞赏金计划申请。OpenAI 期待与研究人员、道德黑客以及安全和安全社区合作,共同追求安全的 AI 生态系统。
觉得有用?分享给更多人