资讯

AI Agent Skills 生态的最新动态、教程和深度分析

找到 405 篇文章

NemoClaw 三层安全架构，难解智能体根本问题

Nvidia 在 GPU 技术大会上发布 NemoClaw，旨在为流行的开源智能体框架 OpenClaw 提供策略执行、隐私路由和沙箱执行三层安全架构。然而，文章指出这些防护措施存在固有低效性，无法彻底解决安全问题，企业采用智能体的关键瓶颈在于难以雇佣到能识别工作流风险的老练工程师。

深度The New Stack·3月28日·4 分钟

Solo.io 开源 agentevals，解决智能体评估难题

Solo.io 发布了 agentevals 开源框架，旨在帮助开发者评估和基准测试智能体 AI 系统，解决生产部署前的可靠性、延迟和成功率测量问题。同时，该公司将 agentregistry 捐赠给 CNCF，以标准化 AI 能力的编目和管理。

深度The New Stack·3月28日·3 分钟

智能体评估准备清单（上）

本文是智能体评估实操指南的第一部分，重点讲解评估前的准备工作、如何选择合适的评估层级（单步、完整轮次、多轮次），以及构建高质量评估数据集的具体方法。强调从手动分析真实失败案例入手，确保评估能准确反映智能体能力。

指南LangChain·3月27日·8 分钟

Kensho 用 LangGraph 构建多智能体金融数据检索框架

Kensho 利用 LangGraph 构建了 Grounding 多智能体框架，统一访问标普全球的金融数据。框架通过路由器将查询分发至专业数据检索智能体，确保高信任度和合规性。关键经验包括可观测性、多阶段评估和协议优化。

深度LangChain·3月26日·4 分钟

LangChain 如何为 Deep Agents 设计评估体系

文章介绍了 LangChain 团队如何通过数据收集、指标定义和实验运行来构建 Deep Agents 的评估体系。核心观点是评估应聚焦于生产环境中的关键行为，并通过分类、追踪和效率指标来持续改进智能体。

指南LangChain·3月26日·6 分钟

用 Agent Middleware 定制智能体执行框架

本文介绍了智能体执行框架的核心循环，并重点阐述了如何通过 Agent Middleware 对其进行定制。中间件提供了六个关键钩子，支持 PII 检测、动态工具选择、上下文摘要等常见需求。Deep Agent 案例展示了中间件在生产环境中的实际应用，作者认为中间件是解耦业务逻辑与核心代码的优雅抽象。

指南LangChain·3月26日·5 分钟

HPE 智能体让根因分析时间减半

HPE 推出企业级多域智能体运维系统，通过基于技能的 AI 智能体（Agent）辅助而非取代人工操作员，将根因分析时间缩短至少 50%。该系统强调人机协同（Human-in-the-Loop）、可审计性和透明推理，旨在应对运维团队面临的告警疲劳、人员短缺和系统复杂性挑战。

深度The New Stack·3月25日·5 分钟

Moda 用 Deep Agents 打造生产级 AI 设计智能体

Moda 平台通过多智能体架构（设计、研究、品牌工具包智能体）处理复杂的视觉设计任务。团队利用 Deep Agents 和 LangSmith 解决了视觉布局表示、动态上下文加载和成本控制等挑战，实现了类似 Cursor 的实时协作设计体验。

深度LangChain·3月24日·6 分钟

Ai2 开源视觉网页智能体 MolmoWeb

Ai2 推出开源视觉网页智能体 MolmoWeb，通过截图操作浏览器，在多项基准测试中超越部分开源模型。团队公开了完整的训练堆栈，包括 3 万条人类任务轨迹和合成数据，旨在为研究人员提供可复现的基础。

指南The New Stack·3月24日·3 分钟

WebAssembly 能解决 AI 智能体最危险的安全漏洞

WebAssembly 为 AI 智能体生成的代码提供卓越的隔离和沙箱环境，解决了容器和微虚拟机在安全性和效率上的不足。开源工具 Boxer 允许开发者将 Dockerfile 转换为 Wasm 分发，降低采用门槛。未来沙箱技术将扩展到同构计算，实现代码在浏览器、手机和云端的无缝运行。

深度The New Stack·3月24日·3 分钟

Cloudflare 发布 AI 智能体沙盒，启动快 100 倍

Cloudflare 的 Dynamic Workers 利用 V8 隔离机制，为 AI 智能体提供快速、安全的代码执行沙盒。它支持 TypeScript API 定义，比 OpenAPI 更简洁，并具备无限制的扩展能力和零延迟优势。

指南·3月24日·8 分钟

PwC 用 AI 智能体直接对接客户

PwC 推出 AI 智能体平台 PwC One，客户可自助提交问题，智能体自主执行任务，咨询师在后台审核输出。平台采用多 LLM 架构，内置合规框架，目前处于测试阶段，已用于财务分析、税务合规等场景。公司表示定价将反映洞察速度与结果质量，责任由专业团队承担。

深度The New Stack·3月24日·3 分钟

ServiceNow 发布语音智能体评估框架 EVA

EVA 框架通过模拟真实的多轮语音对话，首次联合评估语音智能体的任务准确性（EVA-A）和对话体验（EVA-E）。团队发布了包含 50 个航空场景的初始数据集，并发现系统在准确性和体验上普遍存在权衡。

深度Hugging Face·3月24日·4 分钟

LangSmith Fleet 的两种智能体授权模式

LangSmith Fleet 引入 Assistants 和 Claws 两种智能体授权类型，分别对应“代表用户”和“固定凭证”模式。文章通过入职代理、邮件代理等实例说明应用场景，并展望了未来更细粒度的内存权限管理。

指南LangChain·3月23日·3 分钟

用 AI 编程助手玩转 Git 高阶操作

本文介绍了如何利用 AI 编程助手高效使用 Git，涵盖基础操作、冲突解决、历史重写和调试技巧。助手能处理复杂任务，让开发者更轻松地管理代码版本。

指南Simon Willison·3月21日·5 分钟

Cursor 模型成本降 10 倍，Meta 智能体失控

Cursor 推出成本效益极高的 Composer 2 模型，显著降低 AI 辅助编程成本。AI 智能体在快速生成代码的同时，也暴露出安全与代码质量隐患。美国国会提出近 300 页的 AI 法案草案，旨在统一联邦层面的 AI 监管。

深度The New Stack·3月21日·5 分钟

Dreamer：个人智能体操作系统

Dreamer 平台旨在让非技术用户也能轻松使用和构建 AI 智能体，其 Sidekick 智能体可协助用户完成日常任务并创建定制化应用。平台提供完整的开发栈，包括 SDK、数据库和服务器，并积极构建开发者生态，设立奖金激励工具开发。

指南Latent Space·3月20日·3 分钟

Workers AI 上线 Kimi K2.5，智能体成本直降 77%

Cloudflare Workers AI 平台现已支持 Kimi K2.5 大模型，为智能体（Agent）提供推理能力。平台通过自定义内核优化、前缀缓存和异步 API 等改进，显著提升了性能并降低了成本。内部用例表明，使用 Kimi K2.5 可将特定智能体年成本削减 77%。

指南·3月19日·5 分钟