gpt-oss-safeguard 技术报告：基于策略推理的内容标注模型

深度OpenAI2025年10月29日2 分钟阅读

gpt-oss-safeguard-120b 和 gpt-oss-safeguard-20b 是两个开源的推理模型，它们基于 gpt-oss 模型进行后训练，能够根据提供的策略对内容进行标注。这份报告详细介绍了这两个模型的能力，并以原始 gpt-oss 模型为基准，提供了初步的安全评估结果。

本文编译自 gpt-oss-safeguard technical report，版权归原作者所有。

觉得有用？分享给更多人

获取每周 AI 工具精选

工具推荐、实战教程和生态洞察，每周更新。

Black Forest Labs 推出 FLUX 3，统一多模态模型，视频生成超越多个竞品，并开源 FLUX-mimic 用于机器人控制。同时，The Stack v3 数据集发布，蒸馏政策争议持续。

深度Latent Space·7月24日·8 分钟

本文采访了多位进攻型网络安全研究员，探讨AI公司的安全护栏如何影响他们发现漏洞和开发利用工具的工作。研究员们普遍认为护栏过于严格且不一致，迫使部分人转向国产开源模型。

深度·7月24日·6 分钟

相关文章