LangSmith 全页面集成 Polly,智能体调试助手全面可用

指南LangChain2026年3月18日3 分钟阅读
LangSmith 全页面集成 Polly,智能体调试助手全面可用
调试智能体(Agent)和传统应用完全不同:追踪(Trace)动辄几百步,提示词(Prompt)长达数千行,问题根源往往深埋其中。Polly 作为 AI 助手,能解读 300 步的追踪,定位失败点并告诉你发生了什么。现在,Polly 已在 LangSmith 所有页面全面可用。

调试智能体(Agent)和调试你构建过的任何其他东西都不同。追踪(Trace)可能长达数百步,提示词(Prompt)动辄几千行,一旦出错,引发问题的上下文往往埋在中间某处。

我们构建 Polly,就是为了让它成为能读懂 300 步追踪、定位失败点并准确告诉你发生了什么的人工智能助手。今天,Polly 已面向所有 LangSmith 用户全面可用。

有哪些变化

此前,Polly 只存在于 LangSmith 的少数几个地方(追踪页面、对话视图和 Playground)。现在,我们大幅扩展了 Polly 的能力范围。

以下是今天的核心变化:

  • Polly 现已覆盖所有 LangSmith 页面。无论是追踪项目、运行、对话、实验、数据集、标注队列、评估器(Evaluator)还是 Playground,Polly 都会在页面或工作流的右下角随时待命。
  • Polly 能记住对话上下文。开始调试一个追踪,切换到实验页面对比运行结果,再回来,Polly 依然记得你刚才在做什么。这种跨页面导航的持久性,让你在不同视图间切换时更加顺畅。
  • Polly 可以直接执行操作。除了回答问题,Polly 现在还能更新你的提示词(Prompt)、从失败运行中创建数据集、筛选项目视图、编写评估器(Evaluator)代码以及对比实验。可以说,Polly 就像你团队里一位可以随时求助、动手能力强的工程师。

Polly 现在擅长什么

问题在哪,跟到哪

最棘手的调试问题往往不局限于单一页面。你可能从一条追踪开始,意识到需要对比另一个实验,把样本拉进数据集,然后去修复提示词。现在,Polly 能带着完整的上下文,陪你走完整个工作流。

在对话视图中,Polly 对于分析包含多次来回交互的完整对话也特别有用。不用自己逐条阅读消息,直接问 Polly:

  • "用户看起来沮丧吗?"
  • "用户遇到了什么问题?"
  • "用户的问题解决了吗?"
  • "这个对话的主题是什么?"

Polly 会基于完整的对话上下文回答,帮你快速理解用户情绪、对话结果和交互模式。

更快写出更好的评估器

Polly 现在可以直接在评估器(Evaluator)面板帮你编写和优化评估逻辑。你可以让 Polly 写一个检查模型幻觉(Hallucination)的评估器,改进现有评估器的准确性,或者为边缘情况添加处理逻辑。它能生成代码,解释检查逻辑,并和你一起迭代。这让你能花更少时间在框架搭建上,更多时间关注评估器真正需要捕捉什么。

把实验结果变成清晰决策

运行评估(Eval)后,问 Polly 哪个实验表现最好,它会基于你的实际数据给出建议。你也可以让 Polly 直接对比两次运行。这能帮你判断究竟是哪个提示词改动、模型或架构真正起了作用,而无需手动解析每一个结果。

我们如何打造出 Polly

在构建 Polly 之前,我们花了大量时间与在 LangSmith 上构建生产级智能体(Agent)的团队合作。反复出现的失败模式是:追踪太长难以浏览,提示词太乱难以推理,对话太散漫难以跟进。

Polly 并非要取代工程师的判断,它只是帮你处理那些拖慢进度的部分。Polly 知道你在看什么,能对此采取行动,并且可以全程陪伴你完成整个调试会话。

开始使用

如果你已经是 LangSmith 用户,Polly 就在右下角等着你。在任何页面,都可以通过 Cmd+I(Mac)或 Ctrl+I(Windows/Linux)快捷键打开 Polly。

要与 Polly 开始对话,你需要将一个模型提供商的 API 密钥设置为工作区密钥,这个过程只需 2 分钟。在我们的文档中了解具体步骤

如果你是 LangSmith 的新用户,首先需要设置追踪(Tracing)。一旦你的数据开始流入 LangSmith,Polly 就能帮你理解正在发生什么以及如何改进。

本文编译自 Polly is generally available everywhere you work in LangSmith,版权归原作者所有。

觉得有用?分享给更多人

获取每周 AI 工具精选

工具推荐、实战教程和生态洞察,每周更新。

相关文章

pgEdge 推出开源 MCP Server for Postgres,支持 AI 智能体通过模型上下文协议(MCP)而非传统 API 方式访问数据库。服务强调数据源无关性、完整模式自省和 token 优化,适用于 Claude Code、Cursor 等主流 AI 开发工具。

指南The New Stack·4月2日·4 分钟

Google 推出 Flex 和 Priority 两个新的推理层级,帮助开发者平衡成本与可靠性。Flex 是成本优化层级,适合后台任务,价格便宜一半;Priority 是最高保障层级,适合用户交互型应用。两者都通过同步接口调用,简化了架构管理。

指南·4月2日·3 分钟

评论