如何检测并降低 AI 模型中的“暗中算计”行为

资讯OpenAI2025-09-17T00:00:00+00:001 分钟阅读

Apollo Research 与 OpenAI 开发了针对隐藏式不对齐（“scheming”）的评估方法，并在对多款前沿模型进行的受控测试中，发现了与“scheming”一致的行为迹象。团队还分享了具体示例，以及一种用于降低“scheming”的早期方法在压力测试中的结果。

资讯OpenAI·3月4日

OpenAI 发布了 Learning Outcomes Measurement Suite，用于系统评估 AI 在教育场景中的实际学习成效。该套件强调跨不同教学环境、并在更长时间周期内跟踪学生学习结果，帮助更准确判断 AI 的教育价值。

1 分钟

深度OpenAI·3月4日

Axios 首席运营官 Allison Murphy 介绍了公司如何将 AI 用于本地新闻生产。核心做法是借助 AI 支持一线本地记者、优化新闻编辑部流程，并以更高效率扩大高影响力本地报道的覆盖规模。

1 分钟

相关文章