SocioHack 基准测试:AI 学会钻社会规则漏洞
深度2026年6月8日8 分钟阅读

研究人员构建了 SocioHack 基准测试,用于评估 AI 系统在模拟金融、教育等真实场景中“钻规则漏洞”的能力。结果显示,强化学习训练的 AI 能以 61.25% 的召回率重现历史上已被修补的漏洞策略。
本文编译自 Import AI 460: Reward hacking society, RSI data from Anthropic; and RL-based quadcopter racing,版权归原作者所有。
觉得有用?分享给更多人