LangSmith 全页面集成 Polly,智能体调试助手全面可用

调试智能体(Agent)和调试你构建过的任何其他东西都不同。追踪(Trace)可能长达数百步,提示词(Prompt)动辄几千行,一旦出错,引发问题的上下文往往埋在中间某处。
我们构建 Polly,就是为了让它成为能读懂 300 步追踪、定位失败点并准确告诉你发生了什么的人工智能助手。今天,Polly 已面向所有 LangSmith 用户全面可用。
有哪些变化
此前,Polly 只存在于 LangSmith 的少数几个地方(追踪页面、对话视图和 Playground)。现在,我们大幅扩展了 Polly 的能力范围。
以下是今天的核心变化:
- Polly 现已覆盖所有 LangSmith 页面。无论是追踪项目、运行、对话、实验、数据集、标注队列、评估器(Evaluator)还是 Playground,Polly 都会在页面或工作流的右下角随时待命。
- Polly 能记住对话上下文。开始调试一个追踪,切换到实验页面对比运行结果,再回来,Polly 依然记得你刚才在做什么。这种跨页面导航的持久性,让你在不同视图间切换时更加顺畅。
- Polly 可以直接执行操作。除了回答问题,Polly 现在还能更新你的提示词(Prompt)、从失败运行中创建数据集、筛选项目视图、编写评估器(Evaluator)代码以及对比实验。可以说,Polly 就像你团队里一位可以随时求助、动手能力强的工程师。
Polly 现在擅长什么
问题在哪,跟到哪
最棘手的调试问题往往不局限于单一页面。你可能从一条追踪开始,意识到需要对比另一个实验,把样本拉进数据集,然后去修复提示词。现在,Polly 能带着完整的上下文,陪你走完整个工作流。
在对话视图中,Polly 对于分析包含多次来回交互的完整对话也特别有用。不用自己逐条阅读消息,直接问 Polly:
- "用户看起来沮丧吗?"
- "用户遇到了什么问题?"
- "用户的问题解决了吗?"
- "这个对话的主题是什么?"
Polly 会基于完整的对话上下文回答,帮你快速理解用户情绪、对话结果和交互模式。
更快写出更好的评估器
Polly 现在可以直接在评估器(Evaluator)面板帮你编写和优化评估逻辑。你可以让 Polly 写一个检查模型幻觉(Hallucination)的评估器,改进现有评估器的准确性,或者为边缘情况添加处理逻辑。它能生成代码,解释检查逻辑,并和你一起迭代。这让你能花更少时间在框架搭建上,更多时间关注评估器真正需要捕捉什么。
把实验结果变成清晰决策
运行评估(Eval)后,问 Polly 哪个实验表现最好,它会基于你的实际数据给出建议。你也可以让 Polly 直接对比两次运行。这能帮你判断究竟是哪个提示词改动、模型或架构真正起了作用,而无需手动解析每一个结果。
我们如何打造出 Polly
在构建 Polly 之前,我们花了大量时间与在 LangSmith 上构建生产级智能体(Agent)的团队合作。反复出现的失败模式是:追踪太长难以浏览,提示词太乱难以推理,对话太散漫难以跟进。
Polly 并非要取代工程师的判断,它只是帮你处理那些拖慢进度的部分。Polly 知道你在看什么,能对此采取行动,并且可以全程陪伴你完成整个调试会话。
开始使用
如果你已经是 LangSmith 用户,Polly 就在右下角等着你。在任何页面,都可以通过 Cmd+I(Mac)或 Ctrl+I(Windows/Linux)快捷键打开 Polly。
要与 Polly 开始对话,你需要将一个模型提供商的 API 密钥设置为工作区密钥,这个过程只需 2 分钟。在我们的文档中了解具体步骤。
如果你是 LangSmith 的新用户,首先需要设置追踪(Tracing)。一旦你的数据开始流入 LangSmith,Polly 就能帮你理解正在发生什么以及如何改进。
觉得有用?分享给更多人