LangSmith 发布 CLI 与首批 Skills,Claude Code 任务通过率升至 92%


2 分钟阅读 · 2026 年 3 月 4 日
我们正在发布一个 CLI 以及首批 skills,让 AI 编码 Agent 在 LangSmith 生态中具备更强的实战能力。这包括为 Agent 添加 tracing、理解其执行过程、构建测试集,以及评估性能。在我们的 eval 数据集上,这让 Claude Code 在这些任务上的表现从 17% 提升到 92%。
The LangSmith CLI
核心是我们全新的 LangSmith CLI. LangSmith CLI 以 agent-native 为设计目标:它为编码 Agent(以及开发者)提供了在 LangSmith 中完成各类操作所需的基础构件。这包括拉取 traces、整理 datasets、运行 experiments。配合 skills 中的使用指引后,编码 Agent 可以完全通过终端流畅地操作 LangSmith。我们认为,这一能力对 Agent 开发的未来至关重要,因为我们预计 Agent 改进闭环将越来越多地由其他“terminal-first”的 Agent 驱动。
你可以使用以下安装脚本安装 CLI:
curl -sSL https://raw.githubusercontent.com/langchain-ai/langsmith-cli/main/scripts/install.sh | sh
什么是 Skills?
Skills 是经过整理的指令、脚本和资源,用于提升编码 Agent 在特定领域中的表现。一个关键点是,skills 通过“渐进式披露”动态加载——Agent 只会在当前任务相关时检索对应 skill。这样可以增强 Agent 能力,因为历史经验表明,给 agent 一次性提供过多工具会导致性能下降。
Skills 具备可移植、可共享特性——它们由 markdown 文件和脚本构成,可按需获取。我们正在分享一组 LangSmith skills,可迁移到任何支持 skill 功能的编码 Agent 上。
LangSmith Skills
在 langsmith-skills 仓库中,我们维护了 3 个 skills:
- trace:为现有代码添加 tracing,并查询 traces
- dataset:构建样例数据集
- evaluator:在这些数据集上评估 agents
这三个方向对应 LangSmith AI 工程的三大核心领域。后续我们会持续扩展这组 skills。
Skill 影响
使用 skills 后,我们观察到 Claude Code 在基础 LangSmith 任务上的表现显著提升。
Test
Model
Pass Rate
Claude Code without Skills
Sonnet 4.6
17%
Claude Code with Skills
Sonnet 4.6
92%
通过率基于 LangSmith evaluations 计算。我们计划将所使用的测试 benchmark 开源。
这些 skills 使编码 Agent 能在 Agent 开发中建立“正向飞轮”。你的编码 Agent 可以借助 LangChain 和 LangSmith skills 来:
- 为你的 Agent 添加 tracing 逻辑
- 用 Agent 生成 traces,并据此高效调试行为
- 使用生成的 traces 构建系统化测试数据集
- 创建 evaluator,在数据集上运行并验证 Agent 正确性
- 基于评估结果与人工反馈,继续迭代 Agent 架构
这个闭环是加速 Agent 开发的强大工具。想看实际效果,可查看我们的 skills 演示:
安装
你可以通过 npx skills 安装这些 skills:
Local(当前项目):
npx skills add langchain-ai/langsmith-skills --skill '*' --yes
Global(所有项目):
npx skills add langchain-ai/langsmith-skills --skill '*' --yes --global
将 skills 绑定到特定 Agent(例如 Claude Code):
npx skills add langchain-ai/langsmith-skills --agent claude-code --skill '*' --yes --global
结论
我们很期待社区使用 LangChain 和 LangSmith,持续提升你在我们生态中的开发体验。随着 LangSmith 新能力上线,我们会继续补充更多 skills 内容。同时,我们也在发布一组 skills用于与 LangChain 开源库(LangChain、LangGraph 和 DeepAgents)交互。如果你对新增 skills 或改进方向有想法,欢迎告诉我们!
订阅我们的新闻简报
来自 LangChain 团队与社区的更新
输入你的邮箱
正在处理你的申请……
成功!请检查收件箱并点击链接确认订阅。
抱歉,出了点问题。请重试。
