资讯

AI Agent Skills 生态的最新动态、教程和深度分析

找到 405 篇文章

Box CEO：每个智能体都需要一个盒子

Box CEO Aaron Levie 在访谈中指出，智能体将比人类数量多一个数量级，企业必须构建基础设施来管理其数据访问、权限和安全。未来的工作模式将围绕如何让智能体高效运行而改变，而非相反。

深度Latent Space·3月5日·3 分钟

LangChain 二月更新：Agent Builder 升级与生产监控指南

LangChain 二月更新涵盖 LangSmith 平台功能增强、开源项目 deepagents 沙箱支持，以及智能体生产监控的深度指南。团队还预告了五月 Interrupt 2026 大会，并列出全球多场社区活动。

指南LangChain·3月4日·5 分钟

AI 智能体编程：从怀疑到 Rust 机器学习库

文章记录了作者从 AI 智能体编程怀疑者到实践者的转变，通过一系列渐进项目展示了智能体在复杂编码任务中的能力。他最终尝试用智能体将 Python 的 scikit-learn 库移植到 Rust，并指出最新模型相比几个月前的版本有质的飞跃。

深度Simon Willison·2月27日·2 分钟

Amazon Bedrock 推出智能体状态运行时

状态运行时环境解决了智能体在生产环境中运行多步骤工作流的挑战，如状态管理、工具调用和错误处理。它运行在 AWS 环境中，提供持久编排和内存，支持客户支持、销售运营等复杂解决方案。运行时即将在 Amazon Bedrock 上线，可通过 OpenAI 团队联系获取更多信息。

指南OpenAI·2月27日·2 分钟

GitHub Copilot 智能编码助手更新详解

GitHub Copilot 智能编码助手新增模型选择器，可按任务需求选用不同模型；引入自检功能，在提交 PR 前自动优化代码；内置安全扫描，实时检测漏洞和敏感信息；支持创建自定义智能体，固化团队工作流程；新增 CLI 切换，云端和本地工作无缝衔接。

指南GitHub·2月26日·3 分钟

智能体上线前，你永远猜不到它会做什么

智能体（Agent）的输入是自然语言，行为具有非确定性，传统监控工具无法应对。有效的智能体可观测性需要监控完整的对话、多轮上下文和智能体轨迹。规模化评估需要结合人工标注队列和LLM作为评判代理，而LangSmith的Insights Agent能自动发现使用模式和错误模式。

深度LangChain·2月26日·6 分钟

CoderForge-Preview：最大开源编码智能体数据集

CoderForge-Preview 数据集包含 25.8 万条长上下文（最高 128K Token）编码智能体轨迹，覆盖 5.1 万个任务和 1655 个仓库。研究团队使用该数据集微调 Qwen-3 32B 模型，在 SWE-Bench Verified 基准测试中取得开源模型最佳成绩。

深度·2月25日·6 分钟

多智能体工作流常失败？三个工程模式搞定

多智能体工作流失败通常源于隐式假设和缺乏结构。通过引入类型化模式确保数据一致性，操作模式明确意图，以及 MCP 协议强制执行接口，可大幅提升系统可靠性。关键在于将智能体视为代码而非聊天界面来设计。

指南GitHub·2月24日·3 分钟

Simon Willison 启动智能体工程模式项目

Simon Willison 启动智能体工程模式项目，旨在系统化编码智能体的最佳实践。项目以指南形式发布，首章探讨代码成本降低的影响，次章介绍测试驱动开发如何提升智能体代码质量。

深度Simon Willison·2月23日·3 分钟

LangSmith Agent Builder 的记忆系统设计

本文介绍了 LangSmith Agent Builder 记忆系统的设计思路与技术实现。团队基于 COALA 论文定义，将记忆实现为虚拟文件系统，使用 AGENTS.md、tools.json 等标准文件存储指令与知识。记忆系统让智能体能够通过迭代修正自动优化，无需用户手动编写复杂配置。

深度LangChain·2月22日·5 分钟

智能体可观测性如何驱动评估

智能体可观测性与软件可观测性有本质区别，它需要捕获非确定性的推理过程。评估智能体不再是测试代码路径，而是测试推理质量。生产环境成为主要学习来源，实时追踪数据不断生成离线测试用例。

深度LangChain·2月22日·5 分钟

Agent Builder 记忆功能实战指南

本文介绍了 Agent Builder 记忆功能的工作原理，包括短期记忆和长期记忆的区别。提供了三种实用技巧：主动告诉智能体记住关键信息、使用技能管理专业上下文、直接编辑智能体记忆文件。这些方法能帮助开发者更高效地与智能体协作。

指南LangChain·2月19日·3 分钟

Anthropic 实测智能体自主性：73% 需人机协同

Anthropic 通过分析数百万次工具调用，揭示了 Claude Code 等智能体的实际使用模式：大多数任务仍需人工介入，自主性在用户与模型的互动中共同构建。报告还对比了其内部数据与 METR 基准的差异，并提供了其他前沿模型的最新动态。

深度Latent Space·2月19日·4 分钟

IBM 与伯克利诊断企业智能体失败原因

研究团队使用 MAST（多智能体系统失败分类法）对 ITBench 的 310 条 SRE 任务执行轨迹进行了标注分析。关键发现包括：Gemini-3-Flash 等前沿模型失败模式单一（平均 2.6 个/轨迹），而 GPT-OSS-120B 等开源大模型失败模式会连锁叠加（平均 5.3 个/轨迹）。此外，验证失败（FM-3.3）是导致任务失败的最强预测因子。

深度Hugging Face·2月18日·4 分钟

LangSmith Agent Builder 更新：全能聊天智能体、文件上传与工具注册表

LangSmith Agent Builder 更新引入了中央聊天智能体，可访问工作空间所有工具，支持将任意对话转化为可复用智能体，并新增文件上传功能。工具管理也得到简化，提供统一注册表进行查看和认证。

指南LangChain·2月18日·3 分钟

实测 AI 智能体自主性：Claude Code 单次运行时长翻倍

研究显示，Claude Code 的自主运行时长显著增长，经验用户更信任其自主工作。智能体已在软件工程、医疗、金融等领域应用，但高风险场景尚未规模化。有效监管需结合部署后监控与新型人机交互范式。

深度Anthropic·2月18日·4 分钟

执行框架工程让智能体从 Top 30 冲到 Top 5

文章介绍了 LangChain 如何通过执行框架工程显著提升其编码智能体 deepagents-cli 的性能。核心方法包括利用追踪分析技能自动化诊断错误、通过系统提示和中间件强制智能体进入“构建-验证”循环、为智能体注入环境上下文、以及采用“推理三明治”策略优化计算资源分配。这些实践为构建更强大的智能体应用提供了具体指导。

深度LangChain·2月17日·7 分钟

Anthropic 联手印孚瑟斯，为电信等受监管行业打造 AI 智能体

Anthropic 与印孚瑟斯合作，旨在利用 Claude 和 Infosys Topaz 平台加速企业软件开发生命周期，并为电信、金融等高度监管行业构建定制化 AI 智能体。合作将聚焦于网络运营现代化、风险合规自动化、产品设计加速等具体场景。印度是 Claude.ai 第二大市场，此次合作也是 Anthropic 扩大印度市场布局的一部分。

指南Anthropic·2月17日·3 分钟