gpt-oss-safeguard 技术报告:两款开源权重推理模型的能力与安全基线评估
深度OpenAI2025-10-29T00:00:00+00:001 分钟阅读
gpt-oss-safeguard-120b 与 gpt-oss-safeguard-20b 是两款基于 gpt-oss 模型进行后训练(post-trained)的开源权重推理模型,能够根据提供的策略进行推理,并在该策略框架下对内容进行标注。
在本报告中,我们将介绍 gpt-oss-safeguard 的能力,并给出对 gpt-oss-safeguard 模型的基线安全评估;评估过程中以其底层 gpt-oss 模型作为基线对照。
如需进一步了解底层 gpt-oss 模型的开发过程与架构信息,请参阅原始 gpt-oss 模型的 model card。
原文链接:https://openai.com/index/gpt-oss-safeguard-technical-report