资讯
AI Agent Skills 生态的最新动态、教程和深度分析
找到 405 篇文章
AI Agent Skills 生态的最新动态、教程和深度分析
找到 405 篇文章
Anthropic 推出 Claude Tag,将 Claude 深度集成到 Slack 中,支持异步委托、跨频道协同、代码库接入和自动化工作流。产品处于 beta 阶段,面向 Claude Enterprise 和 Team 用户。
OpenClaw与Hermes Agent代表了两种智能体执行框架设计路线:OpenClaw以网关为中心,连接众多消息渠道,吸引平台厂商(Nvidia、Microsoft)为其添加治理和身份层;Hermes以内存为中心,实现跨会话的持久化学习,支持模型切换和技能进步。企业用户需权衡治理、身份和控制权,而平台厂商正围绕运行时层展开竞争。
Nx 推出 Polygraph,将多个仓库连接成“合成单仓库”,并附带跨会话的共享记忆,让 AI 编码 Agent 能无缝处理跨仓库变更。目前处于免费早期访问阶段,支持 Claude Code、Codex 等 Agent。
ANS 标准通过 DNS 为 AI 代理提供可验证身份,但依赖域名注册商和证书颁发机构的传统信任层级存在安全风险。该方案与 Google A2A、Cisco AGNTCY 等竞争,大玩家尚未加入。
CUGA 是 IBM 开源的轻量级 Agent 执行框架(Harness),负责规划、执行、工具调用和状态管理,开发者只需提供工具列表和提示词。本文通过一个完整的 IBM Cloud 顾问应用示例,展示了 CUGA 的核心设计理念——将复杂管道内置,让开发者专注于业务逻辑。框架支持多种模型提供商、MCP 工具、长期规划与自我修正,并已在 AppWorld 和 WebArena 基准测试中取得领先成绩。
AI Agent在生产环境中失败不是因为缺乏自主性,而是因为自主性缺乏结构。将Agent与数据的交互分为四类:语义层问答、受控查询、注册函数调用和向量搜索,每类都需要独立的治理工具。CrewAI AMP集成了Databricks,提供四个托管MCP服务器分别对应这四种模式。
AI Agent的搜索能力经历了三个阶段:从向量数据库到混合搜索,再到现在的“搜索即代码”。Agent不像人类用户那样懒散和模糊,它可以使用精确的查询语言、元数据过滤、时间范围筛选、语义排序等专业手段。开发者需要为Agent提供丰富的检索工具箱,而非沿用为普通用户设计的简化方案。
Nvidia 开发者技术总监 Nader Khalil 在接受专访时阐述了 Agent 的定义(LLM + Harness),并透露公司已向 OpenClaw 全职投入多名开发者以支持其社区。他还介绍了 Nvidia 的 Agent 蓝图(Blueprint.如 NanoClaw)和技能(Skill)策略,认为每个企业都将构建自己的专用 Agent,而 Nvidia 的目标是提供生态所需工具。
Lighthouse 的 Agentic 浏览评分不输出 0-100 加权分,而是基于通过审计项的比例给出分数比和通过/未通过状态。评分受 WebMCP 工具注册时序、无障碍树结构变化和累计布局偏移等因素影响。审计覆盖 WebMCP 集成、无障碍树可用性、页面稳定性及 llms.txt 文件。开发者应使用 WebMCP、保证语义 HTML 和 ARIA 标注、减少布局偏移来提升兼容性。
本文介绍了 GitHub 内部 AI 数据分析助手 Qubot 的架构与实现,包括用户界面、上下文层、评估框架和查询引擎。Qubot 通过 Slack、VS Code 和 Copilot CLI 提供接口,连接 Kusto 和 Trino 两种查询引擎,并利用 GitHub MCP Server 加载上下文。文章还分享了关键经验:结构化上下文不仅能提高准确率,还能让回答速度快三倍。
Cloudflare 推出针对 AI Agent 的临时账号功能,允许 Agent 通过 Wrangler CLI 直接部署 Worker,无需人类交互。临时部署有效期为 60 分钟,可在此期间认领为永久账号。这解决了背景 Agent 面临的身份验证障碍,加速了编码-部署-验证循环。
Gusto Cofounder 是一个能主动帮助小企业处理薪资、HR、福利等后端事务的 AI 智能体。它通过文本或 Slack 与用户交互,具备清晰的许可框架来保护敏感数据,并能连接第三方系统如 Google Sheets。整个平台由 5 人团队用 Claude Code 在 8 周内构建完成。
基于 Elasticsearch 构建持久化智能体记忆层:将记忆分为情景、语义、程序三类,分别存储在不同索引中;通过 BM25 + 稠密向量混合检索(RRF 融合)和交叉编码器重排序实现高精度召回;支持版本替换、衰减和基于 DLS 的多用户隔离。QA 评测 R@10 平均 0.89,无跨租户泄漏。
MosaicLeaks 基准测试包含 1001 条多跳研究链,每条链交替使用本地和网络信息,旨在诱发隐私泄露。实验表明,仅优化任务性能会使泄露率上升,而 PA-DR 方法通过情景化任务奖励和学习型隐私奖励,在保持任务成功率的同时大幅降低泄露。
Hugging Face 团队开发了一套用于评估开源模型在智能体任务中表现的基准测试框架。该框架不只看最终答案,还追踪回答过程中的代价:耗时、Token 用量、调用次数、失误率等。以 transformers 库为案例,团队设计了 bare、clone、skill 三种测试层级,并运行在 Hugging Face Jobs 上以确保硬件一致。
Cloudflare 将 Agents SDK 作为运行时层开放,Flue 成为首个基于它构建的框架。文章介绍了代理生产的三个层次:框架(Flue)、执行框架(Pi/Project Think)和运行时(Agents SDK),并重点说明了 SDK 提供的持久执行(Fibers)、代码执行(@cloudflare/codemode)和虚拟文件系统(@cloudflare/shell)等原语。
AWS Context 自动构建企业知识图谱,为 AI 代理提供运行时上下文。它基于 Amazon Quick 技术,支持身份感知访问和连续学习,帮助代理做出更准确的决策。
AWS 在纽约峰会上发布了 Kiro iOS 应用,支持手机端启动、审查和审批编码任务。该应用提供 Chat、Spec、Autonomous 三种模式,并强调 spec-driven 开发作为 AI 编码的核心工作流。