技能在真实场景中的效用评估：LLM技能使用基准测试

深度2026年4月6日28 分钟阅读

研究发现LLM技能在真实场景中的表现远不如理想条件，性能接近无技能基线。AI研究人员和智能体开发者应关注此研究，了解技能机制在实际应用中的挑战与优化策略。

觉得有用？分享给更多人

获取每周 AI 工具精选

工具推荐、实战教程和生态洞察，每周更新。

OpenAI 在 GPT 5.6 发布时宣布该模型将成为 Microsoft 365 Copilot 的首选模型，回应了此前关于双方关系疏远的传闻。但该声明并未否认 Microsoft 同时也在增加自研模型使用以削减成本的报道。

深度·7月10日·2 分钟

OpenAI 发布 GPT-5.6 系列，含 Sol、Terra、Luna 三款，主打编码效率与网络安全。Sol 在编码基准测试中超越 Anthropic Fable 5，且成本更低。同时推出面向企业团队的 ChatGPT Work 工具。

深度·7月9日·3 分钟

相关文章