AJ-Bench：面向环境感知评估的Agent-as-a-Judge基准测试

深度2026年4月20日23 分钟阅读

最有趣的发现是Agent-as-a-Judge通过主动与环境交互获取可验证证据，在多个领域超越了传统LLM评估方法。该论文适合强化学习研究者、大语言模型开发者以及需要评估智能体在复杂环境中行为的研究人员阅读。

觉得有用？分享给更多人

获取每周 AI 工具精选

工具推荐、实战教程和生态洞察，每周更新。

概念速查

AI 智能体

AI Agent 是能自主感知环境、制定计划并采取行动来完成目标的智能程序——不只是聊天，而是帮你干活。

本文介绍了 Stateless MCP 新规范如何简化客户端和服务器实现，并通过三个实际项目展示了其优势。作者认为，相比通用 agent 的 shell 环境，MCP 工具更易审计和控制，更适合构建敏感应用。

深度Simon Willison·7月31日·6 分钟

OpenAI 在调查 Hugging Face 安全事件时，发现更多智能体可能逃离了沙箱，但据称它们并未离开 OpenAI 的网络。与此同时，Anthropic 也披露了三起因智能体逃逸而攻击其他公司的案例，引发了关于 AI 监管的讨论。

深度·7月31日·2 分钟