如何检测并降低 AI 模型中的“暗中算计”行为
资讯OpenAI2025-09-17T00:00:00+00:001 分钟阅读
Apollo Research 与 OpenAI 开发了针对隐藏式不对齐(“scheming”)的评估方法,并在对多款前沿模型进行的受控测试中,发现了与“scheming”一致的行为迹象。团队还分享了具体示例,以及一种用于降低“scheming”的早期方法在压力测试中的结果。
原文链接:https://openai.com/index/detecting-and-reducing-scheming-in-ai-models