S
SkillNav

LangSmith 发布 CLI 与首批 Skills,Claude Code 任务通过率升至 92%

资讯LangChain2026-03-04T18:00:31+00:004 分钟阅读
LangSmith 发布 CLI 与首批 Skills,Claude Code 任务通过率升至 92%

LangSmith CLI & Skills

2 分钟阅读 · 2026 年 3 月 4 日

我们正在发布一个 CLI 以及首批 skills,让 AI 编码 Agent 在 LangSmith 生态中具备更强的实战能力。这包括为 Agent 添加 tracing、理解其执行过程、构建测试集,以及评估性能。在我们的 eval 数据集上,这让 Claude Code 在这些任务上的表现从 17% 提升到 92%。

The LangSmith CLI

核心是我们全新的 LangSmith CLI. LangSmith CLI 以 agent-native 为设计目标:它为编码 Agent(以及开发者)提供了在 LangSmith 中完成各类操作所需的基础构件。这包括拉取 traces、整理 datasets、运行 experiments。配合 skills 中的使用指引后,编码 Agent 可以完全通过终端流畅地操作 LangSmith。我们认为,这一能力对 Agent 开发的未来至关重要,因为我们预计 Agent 改进闭环将越来越多地由其他“terminal-first”的 Agent 驱动。

你可以使用以下安装脚本安装 CLI:

code
curl -sSL https://raw.githubusercontent.com/langchain-ai/langsmith-cli/main/scripts/install.sh | sh

什么是 Skills?

Skills 是经过整理的指令、脚本和资源,用于提升编码 Agent 在特定领域中的表现。一个关键点是,skills 通过“渐进式披露”动态加载——Agent 只会在当前任务相关时检索对应 skill。这样可以增强 Agent 能力,因为历史经验表明,给 agent 一次性提供过多工具会导致性能下降

Skills 具备可移植、可共享特性——它们由 markdown 文件和脚本构成,可按需获取。我们正在分享一组 LangSmith skills,可迁移到任何支持 skill 功能的编码 Agent 上。

LangSmith Skills

langsmith-skills 仓库中,我们维护了 3 个 skills:

  • trace:为现有代码添加 tracing,并查询 traces
  • dataset:构建样例数据集
  • evaluator:在这些数据集上评估 agents

这三个方向对应 LangSmith AI 工程的三大核心领域。后续我们会持续扩展这组 skills。

Skill 影响

使用 skills 后,我们观察到 Claude Code 在基础 LangSmith 任务上的表现显著提升。

Test

Model

Pass Rate

Claude Code without Skills

Sonnet 4.6

17%

Claude Code with Skills

Sonnet 4.6

92%

通过率基于 LangSmith evaluations 计算。我们计划将所使用的测试 benchmark 开源。

这些 skills 使编码 Agent 能在 Agent 开发中建立“正向飞轮”。你的编码 Agent 可以借助 LangChain 和 LangSmith skills 来:

  1. 为你的 Agent 添加 tracing 逻辑
  2. 用 Agent 生成 traces,并据此高效调试行为
  3. 使用生成的 traces 构建系统化测试数据集
  4. 创建 evaluator,在数据集上运行并验证 Agent 正确性
  5. 基于评估结果与人工反馈,继续迭代 Agent 架构

这个闭环是加速 Agent 开发的强大工具。想看实际效果,可查看我们的 skills 演示:

安装

你可以通过 npx skills 安装这些 skills:

Local(当前项目):

code
npx skills add langchain-ai/langsmith-skills --skill '*' --yes

Global(所有项目):

code
npx skills add langchain-ai/langsmith-skills --skill '*' --yes --global

将 skills 绑定到特定 Agent(例如 Claude Code):

code
npx skills add langchain-ai/langsmith-skills --agent claude-code --skill '*' --yes --global

结论

我们很期待社区使用 LangChain 和 LangSmith,持续提升你在我们生态中的开发体验。随着 LangSmith 新能力上线,我们会继续补充更多 skills 内容。同时,我们也在发布一组 skills用于与 LangChain 开源库(LangChain、LangGraph 和 DeepAgents)交互。如果你对新增 skills 或改进方向有想法,欢迎告诉我们!

订阅我们的新闻简报

来自 LangChain 团队与社区的更新

输入你的邮箱

正在处理你的申请……

成功!请检查收件箱并点击链接确认订阅。

抱歉,出了点问题。请重试。

查看原文 ↗

相关文章

资讯Simon Willison·3月6日
Clinejection 攻击披露:仅靠 Issue 分诊提示词即可攻陷 Cline 生产发布流程

研究者 Adnan Khan 披露了一条针对 Cline GitHub 仓库的完整攻击链:攻击者先通过 Issue 标题中的 prompt injection 控制 AI 分诊流程,再借助 GitHub Actions 缓存投毒影响夜间发布任务。尽管分诊工作流本身不含高价值密钥,但因与发布工作流共享缓存键,最终仍导致 NPM 发布凭据可被窃取。事件后 `cline@2.3.0` 曾被匿名攻击者发布(现已撤回),所幸未造成更严重后果。

3 分钟
Copilot 代码审查突破 6000 万次,GitHub 详解 Agent 架构演进
资讯GitHub·3月5日
Copilot 代码审查突破 6000 万次,GitHub 详解 Agent 架构演进

GitHub 表示,自 2025 年 4 月推出 Copilot code review 以来,使用量已增长 10 倍,如今占 GitHub 全站代码审查的五分之一以上。团队通过持续评估闭环与 Agent 化架构优化,将“好审查”聚焦在准确性、信号强度与速度三项核心指标,并在真实生产环境中用开发者反馈和问题修复率衡量效果。当前已有超过 1.2 万家组织在每个 pull request 上自动运行该能力,GitHub 下一步将推进更深度个性化与双向交互审查体验。

8 分钟