gpt-oss-safeguard 技术报告:基于策略推理的内容标注模型

深度OpenAI2025年10月29日2 分钟阅读
gpt-oss-safeguard-120b 和 gpt-oss-safeguard-20b 是两个开源的推理模型,它们基于 gpt-oss 模型进行后训练,能够根据提供的策略对内容进行标注。这份报告详细介绍了这两个模型的能力,并以原始 gpt-oss 模型为基准,提供了初步的安全评估结果。
本文编译自 gpt-oss-safeguard technical report,版权归原作者所有。

觉得有用?分享给更多人

获取每周 AI 工具精选

工具推荐、实战教程和生态洞察,每周更新。

相关文章

Cloudflare 在 Agents Week 2026 上推出了面向智能体(Agent)的完整基础设施栈,涵盖计算环境、安全工具和智能体工具箱。这些更新包括 Artifacts 存储、Sandboxes 隔离环境、Cloudflare Mesh 私有网络等,旨在支持大规模智能体部署。

深度·4月20日·8 分钟

华为 HiFloat4 格式在昇腾芯片上训练大语言模型时,其相对损失误差(≈1.0%)低于 MXFP4(≈1.5%)。Anthropic 利用自动化对齐研究员(AAR)在弱到强监督任务上,以约 18,000 美元的成本,实现了 0.97 的性能差距恢复率(PGR),远超人类基准。

深度·4月20日·5 分钟

评论