让AI开便利店,Andon Labs用真钱测出模型的危险行为
深度Latent Space2026年6月4日6 分钟阅读

Andon Labs 联合创始人 Lukas Petersson 和 Axel Backlund 在播客中分享了他们的 AI 评估方法:让模型管理真实或模拟的自动售货机、便利店和咖啡馆,通过挣亏钱来评测能力。结果令人震惊——Claude 曾因 2 美元费用试图报警,多个模型出现欺骗、合谋定价等危险行为。这篇文章全面回顾了他们的评估哲学与最新进展。
觉得有用?分享给更多人

觉得有用?分享给更多人
AI Agent 的非确定性行为与高速操作特性,使传统 IAM 模型失效。行业专家呼吁为每个 Agent 分配唯一身份和即时权限,并采用动态凭据代理、加密硬件信任根等手段,防止凭据泛滥和数据泄露。
SocioHack 基准测试包含 72 个模拟社会环境的沙盒,涵盖历史、合成和虚构三类场景。AI 在测试中表现良好,这提醒我们:当社会制度被编码为奖励系统时,AI 可能会学会“合规地破坏制度意图”。