资讯

AI Agent Skills 生态的最新动态、教程和深度分析

找到 405 篇文章

智能体框架的进化与可观测性

文章探讨了智能体框架从 LangChain 到 LangGraph 再到 DeepAgents 的三代演变，强调框架的价值在于加速开发、编码最佳实践。同时，LangSmith 作为独立的可观测性平台，支持多种框架甚至无框架的智能体，是生产部署的关键。

深度LangChain·2月13日·4 分钟

OpenEnv 实战：用日历环境评估工具调用智能体

OpenEnv 是一个用于评估 AI 智能体在真实系统而非模拟环境中表现的框架。Turing 基于此构建了 Calendar Gym，一个模拟真实日历管理复杂性的测试环境。评估发现，智能体在多步推理、处理模糊性以及正确调用工具参数方面存在显著瓶颈。

深度Hugging Face·2月12日·5 分钟

零手写代码，五个月交付百万行产品

团队通过 Codex 智能体在零手写代码约束下，五个月交付了百万行代码的产品，工程效率提升十倍。核心经验包括：将知识库结构化而非堆砌指令、推动更多上下文入仓以提升智能体可读性、通过强制约束而非微观管理来保持代码库一致性。

深度OpenAI·2月11日·6 分钟

智能体连接沙箱的两种架构模式

本文分析了智能体与沙箱集成的两种架构模式：智能体在沙箱内运行（模式1）和沙箱作为工具被远程调用（模式2）。模式1更贴近本地开发，但通信复杂、密钥在沙箱内；模式2迭代快、密钥安全，但有网络延迟。deepagents 框架支持两种模式。

深度LangChain·2月10日·5 分钟

Xcode 26.3 原生集成 Claude Agent SDK

Xcode 26.3 将 Claude Agent SDK 原生集成到 IDE 中，让 Claude 能自主处理长期运行的复杂编码任务，如通过预览进行视觉验证、跨项目推理和基于目标的任务分解。该版本现已作为发布候选版向 Apple 开发者计划成员开放。

指南Anthropic·2月3日·3 分钟

LangChain 一月更新：Agent Builder 正式发布

LangSmith Agent Builder 正式发布，支持用自然语言构建智能体。LangChain JS 更新提升了智能体鲁棒性。官方发布了关于智能体可观测性（Observability）与评估的深度指南，并推出了新版 Chat LangChain 和支持门户。全球多地将在二月举办以智能体为主题的社区活动。

指南LangChain·1月30日·4 分钟

第一个智能体，先做一件事，做不好也没关系

文章指出，智能体系统开发应遵循“爬、走、跑”的迭代路径，避免陷入过度设计的POC陷阱。通过医疗背景核查案例，说明从单一任务起步、快速交付、人机协同的价值。最后给出具体启动建议：窄范围、短周期、显式失败、按需增智能体。

深度CrewAI·1月29日·4 分钟

OpenAI 内部数据智能体架构解析

OpenAI 构建了一个内部专用的 AI 数据智能体，用于高效处理公司内部超过 600 PB 的数据。该智能体结合了多层次的上下文（元数据、代码定义、公司文档、记忆系统）来确保推理的准确性，并支持对话式交互和自学习，显著提升了跨部门的数据分析效率。

深度OpenAI·1月29日·8 分钟

AI 智能体点链接时，如何保护你的数据

OpenAI 针对 AI 智能体点击链接时的 URL 数据窃取风险，设计了基于独立网络索引的验证机制。只有公开存在的链接才允许自动加载，否则会触发用户警告。这是多层安全策略中的一环，旨在防止用户数据通过 URL 泄露。

深度OpenAI·1月28日·4 分钟

GPT-OSS 智能体强化学习训练实战复盘

本文记录了 LinkedIn 团队使用 verl 框架对 GPT-OSS 模型进行智能体强化学习训练的过程。他们遇到了因 MoE 架构路由差异导致的 PPO 训练不稳定问题，并通过强制重要性采样比为 1 的修复方案解决了该问题。

深度Hugging Face·1月27日·5 分钟

DSGym：统一评估与训练数据科学智能体的框架

DSGym 是一个集成的框架，用于在自包含的执行环境中评估和训练数据科学智能体。它整合了 90 多个生物信息学任务和 92 个 Kaggle 竞赛，并支持轨迹生成用于训练。使用该框架训练的 4B 模型在开源模型中表现优异。

深度·1月26日·5 分钟

20亿次智能体工作流实战经验

文章基于CrewAI处理20亿次智能体工作流的经验，分析了企业从演示到生产系统的主要障碍。核心发现包括：信任需要在生产中建立、架构选择影响巨大、完整技术栈决定实施速度。

深度CrewAI·1月24日·5 分钟

Codex 智能体循环拆解（上）

本文是 Codex 技术解析系列的第一篇，聚焦于智能体循环的工作原理。文章详细解释了 Codex CLI 如何通过 Responses API 编排模型、工具和提示，并管理上下文窗口以完成软件任务。

深度OpenAI·1月23日·8 分钟

人机协同：智能体系统的第三层架构

人机协同（HITL）让需要 99.9% 准确率或合规审批的用例得以部署。CrewAI 开源框架通过 @human_feedback 装饰器原生支持 HITL，企业版 AMP 则提供了邮件通知、智能路由、SLA 追踪等生产级控制平面功能。

深度CrewAI·1月22日·4 分钟

IBM 发布工业 AI 智能体基准 AssetOpsBench

AssetOpsBench 是一个针对工业资产运维的 AI 智能体基准测试系统，包含大规模数据集和多维度评估框架。测试发现，当前主流模型在复杂多智能体协调和工具调用准确性上仍面临挑战，且无一达到部署就绪的 85 分阈值。

深度Hugging Face·1月21日·6 分钟

NVIDIA 用 DGX Spark 和 Reachy Mini 打造桌面智能体

本文是 NVIDIA 在 CES 2026 上演示的智能体构建教程的第一部分。它详细介绍了如何将推理模型、视觉模型、语音合成与 Reachy Mini 机器人结合，使用 NeMo Agent Toolkit 进行编排，打造一个私有的、可交互的桌面助手。

教程Hugging Face·1月5日·6 分钟

智能体系统架构：生产级AI智能体的缺失环节

当前AI智能体行业普遍存在架构问题，导致许多项目无法进入生产环境。文章提出了智能体系统（Agentic Systems）架构模式，通过确定性主干（Flows）控制流程结构，在关键步骤引入智能（从单次LLM调用到多智能体协作）。DocuSign等企业已采用此架构，在提升业务指标的同时大幅缩短处理时间。

深度CrewAI·12月15日·8 分钟

IBM 开源 CUGA：可配置 AI Agent 登陆 Hugging Face

CUGA 是一个开源的、可配置的通用 AI 智能体，旨在解决现有智能体框架在复杂工作流中的脆弱性和工具误用问题。它支持多种推理模式、计算机使用和多工具集成，并已与 Langflow 和 Hugging Face Spaces 集成，方便开发者快速上手。

指南Hugging Face·12月15日·4 分钟