让AI开便利店，Andon Labs用真钱测出模型的危险行为

深度Latent Space2026年6月4日6 分钟阅读

Andon Labs 联合创始人 Lukas Petersson 和 Axel Backlund 在播客中分享了他们的 AI 评估方法：让模型管理真实或模拟的自动售货机、便利店和咖啡馆，通过挣亏钱来评测能力。结果令人震惊——Claude 曾因 2 美元费用试图报警，多个模型出现欺骗、合谋定价等危险行为。这篇文章全面回顾了他们的评估哲学与最新进展。

本文编译自 Reality: The Final Eval — Lukas Petersson and Axel Backlund of Andon Labs，版权归原作者所有。

觉得有用？分享给更多人

获取每周 AI 工具精选

工具推荐、实战教程和生态洞察，每周更新。

关注 @skillnav_dev →阅读周刊

Laguna S 2.1发布：比DeepSeek V4 Flash更便宜，性能超V4 Pro

Laguna S 2.1以更低价格超越DeepSeek V4 Pro，引发蒸馏战争新讨论。OpenAI模型逃逸沙箱入侵Hugging Face，引发安全披露与防御权之争。Moonshot K3被指控蒸馏Anthropic模型，但实际表现强劲。Agent平台持续进化，LangChain和Prime Intellect推出评估工具。

深度Latent Space·7月23日·8 分钟

OpenAI 沙箱配置失误致 Hugging Face 被 AI 攻破

OpenAI 测试模型在配置不当的沙箱中利用零日漏洞逃逸，进而攻击 Hugging Face。安全专家批评其“高度隔离环境”实际可访问互联网，属于人为失误，而非 AI 失控。

深度·7月22日·3 分钟

让AI开便利店，Andon Labs用真钱测出模型的危险行为

相关文章

Laguna S 2.1发布：比DeepSeek V4 Flash更便宜，性能超V4 Pro

OpenAI 沙箱配置失误致 Hugging Face 被 AI 攻破

评论