资讯
AI Agent Skills 生态的最新动态、教程和深度分析
找到 170 篇文章
AI Agent Skills 生态的最新动态、教程和深度分析
找到 170 篇文章
/fleet 命令让 Copilot CLI 能并行调度多个子智能体,适合跨文件重构、文档生成等场景。提示词需要明确交付物、边界和依赖关系,避免文件冲突。
JetBrains Central 是一个面向 AI 智能体工作流的治理和执行平台,旨在防止智能体成为企业 IT 中又一个失控的层。平台通过语义层聚合代码库、架构和运行时上下文,让智能体获得系统级理解,而非仅依赖提示。JetBrains 采取开放策略,支持连接多种 IDE、CLI 和外部智能体,避免供应商锁定。
Cursor 推出自托管云智能体,让企业能在内部环境中运行 AI 编程助手,直接访问私有仓库、依赖项和内部工具,同时保持代码和数据不出境。该功能支持在本地机器、开发箱或远程虚拟机上部署,目前每用户最多可运行 10 个 worker,每团队 50 个。Notion 和 Brex 等公司已成为早期采用者,认为这是让编码智能体具备企业级就绪能力的重要一步。
LangChain 与 MongoDB 深度集成,将 MongoDB Atlas 转变为完整的 AI 智能体后端。集成包括 Atlas Vector Search 检索器、LangSmith 的 MongoDB 检查点持久化状态、Text-to-MQL 自然语言查询工具,以及 LangSmith 的端到端追踪。该方案已在多个行业投入生产,帮助团队快速从原型过渡到生产环境。
作者分享了如何用 GitHub Copilot 作为主要贡献者来构建智能体,并总结了三条关键策略:对话式提示、重视架构重构与文档、以及建立‘归咎于流程而非智能体’的迭代文化。这套方法让团队开发效率大幅提升。
Nvidia 在 GPU 技术大会上发布 NemoClaw,旨在为流行的开源智能体框架 OpenClaw 提供策略执行、隐私路由和沙箱执行三层安全架构。然而,文章指出这些防护措施存在固有低效性,无法彻底解决安全问题,企业采用智能体的关键瓶颈在于难以雇佣到能识别工作流风险的老练工程师。
Solo.io 发布了 agentevals 开源框架,旨在帮助开发者评估和基准测试智能体 AI 系统,解决生产部署前的可靠性、延迟和成功率测量问题。同时,该公司将 agentregistry 捐赠给 CNCF,以标准化 AI 能力的编目和管理。
本文是智能体评估实操指南的第一部分,重点讲解评估前的准备工作、如何选择合适的评估层级(单步、完整轮次、多轮次),以及构建高质量评估数据集的具体方法。强调从手动分析真实失败案例入手,确保评估能准确反映智能体能力。
Kensho 利用 LangGraph 构建了 Grounding 多智能体框架,统一访问标普全球的金融数据。框架通过路由器将查询分发至专业数据检索智能体,确保高信任度和合规性。关键经验包括可观测性、多阶段评估和协议优化。
文章介绍了 LangChain 团队如何通过数据收集、指标定义和实验运行来构建 Deep Agents 的评估体系。核心观点是评估应聚焦于生产环境中的关键行为,并通过分类、追踪和效率指标来持续改进智能体。
本文介绍了智能体执行框架的核心循环,并重点阐述了如何通过 Agent Middleware 对其进行定制。中间件提供了六个关键钩子,支持 PII 检测、动态工具选择、上下文摘要等常见需求。Deep Agent 案例展示了中间件在生产环境中的实际应用,作者认为中间件是解耦业务逻辑与核心代码的优雅抽象。
HPE 推出企业级多域智能体运维系统,通过基于技能的 AI 智能体(Agent)辅助而非取代人工操作员,将根因分析时间缩短至少 50%。该系统强调人机协同(Human-in-the-Loop)、可审计性和透明推理,旨在应对运维团队面临的告警疲劳、人员短缺和系统复杂性挑战。
Moda 平台通过多智能体架构(设计、研究、品牌工具包智能体)处理复杂的视觉设计任务。团队利用 Deep Agents 和 LangSmith 解决了视觉布局表示、动态上下文加载和成本控制等挑战,实现了类似 Cursor 的实时协作设计体验。
Ai2 推出开源视觉网页智能体 MolmoWeb,通过截图操作浏览器,在多项基准测试中超越部分开源模型。团队公开了完整的训练堆栈,包括 3 万条人类任务轨迹和合成数据,旨在为研究人员提供可复现的基础。
WebAssembly 为 AI 智能体生成的代码提供卓越的隔离和沙箱环境,解决了容器和微虚拟机在安全性和效率上的不足。开源工具 Boxer 允许开发者将 Dockerfile 转换为 Wasm 分发,降低采用门槛。未来沙箱技术将扩展到同构计算,实现代码在浏览器、手机和云端的无缝运行。
Cloudflare 的 Dynamic Workers 利用 V8 隔离机制,为 AI 智能体提供快速、安全的代码执行沙盒。它支持 TypeScript API 定义,比 OpenAPI 更简洁,并具备无限制的扩展能力和零延迟优势。
PwC 推出 AI 智能体平台 PwC One,客户可自助提交问题,智能体自主执行任务,咨询师在后台审核输出。平台采用多 LLM 架构,内置合规框架,目前处于测试阶段,已用于财务分析、税务合规等场景。公司表示定价将反映洞察速度与结果质量,责任由专业团队承担。
EVA 框架通过模拟真实的多轮语音对话,首次联合评估语音智能体的任务准确性(EVA-A)和对话体验(EVA-E)。团队发布了包含 50 个航空场景的初始数据集,并发现系统在准确性和体验上普遍存在权衡。