利用技能程序驾驭LLM智能体

深度2026年5月22日20 分钟阅读
有趣发现:程序函数作为可执行的护栏,能在易错状态激活并修正动作,远超传统文本指导。推荐给从事LLM智能体、技能学习与推理增强的研究者。
本文编译自 Harnessing LLM Agents with Skill Programs,版权归原作者所有。

觉得有用?分享给更多人

获取每周 AI 工具精选

工具推荐、实战教程和生态洞察,每周更新。

相关文章

ThoughtTrace是首个大规模数据集,记录了用户与AI对话中的自述想法(发送提示的原因及对回复的反应),包含1,058名用户、2,155次对话及10,174条想法标注。分析表明,想法与消息语义不同,大模型难以从上下文推断,并能提升用户行为预测和个性化助手训练质量。该数据集为理解人机交互中的认知动态提供了新模态。

深度·5月22日·21 分钟

本文论证了交互式评估应被视为一种原则性的评估范式,而非仅仅是一类新的智能体基准。作者通过将评估定义为从证据到判断的自主映射,揭示了交互式评估如何改变了证据和评估过程两个方面,并提出了双轴分类法、设计原则和报告标准。这项工作有助于系统化碎片化的交互式评估实践,推动AI评估方法的发展。

深度·5月22日·38 分钟

评论