ClawBench：AI智能体能否完成日常在线任务？

深度2026年4月9日26 分钟阅读

最有趣的发现是：即使在生产网站上执行简单日常任务，当前最先进的AI模型成功率仍很低。该研究适合AI研究者、产品开发者和关注AI实际应用的人士阅读。

觉得有用？分享给更多人

获取每周 AI 工具精选

工具推荐、实战教程和生态洞察，每周更新。

概念速查

AI 智能体

AI Agent 是能自主感知环境、制定计划并采取行动来完成目标的智能程序——不只是聊天，而是帮你干活。

OpenAI 在 GPT 5.6 发布时宣布该模型将成为 Microsoft 365 Copilot 的首选模型，回应了此前关于双方关系疏远的传闻。但该声明并未否认 Microsoft 同时也在增加自研模型使用以削减成本的报道。

深度·7月10日·2 分钟

OpenAI 发布 GPT-5.6 系列，含 Sol、Terra、Luna 三款，主打编码效率与网络安全。Sol 在编码基准测试中超越 Anthropic Fable 5，且成本更低。同时推出面向企业团队的 ChatGPT Work 工具。

深度·7月9日·3 分钟