资讯
AI Agent Skills 生态的最新动态、教程和深度分析
共 581 篇文章
AI Agent Skills 生态的最新动态、教程和深度分析
共 581 篇文章
Cloudflare Email Service 现已开放公测,集成了邮件发送、接收和处理功能,专为智能体工作流设计。新发布的工具链包括 Agents SDK 的 onEmail 钩子、Email MCP 服务器、Wrangler CLI 命令和开源参考应用 Agentic Inbox,旨在降低构建邮件驱动智能体的门槛。
Ecom-RLVE 将 RLVE 框架扩展到电商对话智能体,提供 8 个可验证环境,涵盖产品发现、购物车构建等场景。它采用自适应难度课程和算法验证奖励,训练 Qwen 3 8B 模型,旨在解决 LLM 流畅度不等于任务完成度的问题。
作者先解释了为什么通用多模态 embedding 模型还需要针对具体任务做微调,尤其是视觉文档检索这类依赖版式、图表和表格理解的场景。接着梳理了多模态 Sentence Transformers 训练的核心组件,并详细介绍了模型选择方式、数据集格式要求,以及一个可直接拿来训练的 VDR 数据集。
OpenAI 更新了 Agents SDK,引入沙盒环境以控制智能体运行风险,并提供执行框架(Harness)支持前沿模型。更新旨在提升企业构建长周期任务智能体的能力,目前通过 API 向所有客户开放,采用标准定价。
OpenAI Agents SDK 更新核心是沙盒工作空间,允许智能体在受控环境中运行,分离执行框架与计算以确保安全性和可扩展性。支持自定义容器或第三方工具创建沙盒,并集成 AWS S3、Google Cloud Storage 等云存储。SDK 仍免费,仅按 API 使用量收费。
Google 推出原生 Gemini Mac 应用,支持快捷键调出和屏幕内容分享。应用还具备图像和视频生成功能,现已全球上线。
Claude Code 等 AI 编程工具正将软件开发的权力从专业开发者扩展到非技术人员,催生了高度定制化、经济可行的个人软件。PointFive 的 Taylor Houck 和 Livesport 的 Ondrej Machart 等非开发者用 Claude Code 成功构建了自动化工作流和原生 iOS 应用,解决了以往因成本过高而无法实现的定制化需求。
Emergent 从 vibe-coding 平台扩展到 AI 助手领域,推出 Wingman,主打通过聊天平台集成和“信任边界”设计。该助手旨在处理跨工具工作流,目前面临模糊情境下的稳定性挑战。
GitHub 工程师 Brittany Ellich 利用 GitHub Copilot CLI 和智能体工程(Agentic Engineering)在一天内开发出个人组织中心,整合了日历、任务等分散数据。她采用计划-实施工作流,用 Copilot 进行需求访谈和代码生成,并分享了使用的技术栈和工具调用(Tool Use)经验。
Agent Lee 是 Cloudflare 仪表盘中的 AI 助手,通过自然语言帮助用户管理账户、排查问题、部署资源。它基于 Codemode 将工具转换为 TypeScript API,通过 MCP 权限系统确保安全,并支持生成式 UI 动态创建可视化组件。
Cloudflare 推出 Registrar API 公测版,支持通过编程方式搜索、检查并注册域名,旨在填补智能体工作流中的域名注册空白。API 设计简洁,与 Cloudflare MCP 原生集成,智能体可直接调用。未来将扩展至域名生命周期管理,并计划推出更广泛的注册商即服务产品。
Project Think 是 Cloudflare Agents SDK 的下一代平台,旨在解决当前 AI 智能体(如 Claude Code)在部署、成本和协作上的痛点。它基于 Durable Objects 构建,提供了持久化执行、子智能体、会话管理和沙箱化代码执行等新原语,使得为每个用户或任务运行一个智能体的边际成本趋近于零。
Browser Run 为 AI 智能体提供在 Cloudflare 全球网络上运行浏览器会话的能力,支持通过 Puppeteer、Playwright、CDP 等多种方式控制浏览器。新功能包括实时观察智能体操作、在遇到障碍时允许人工介入、直接暴露 Chrome DevTools Protocol 端点以提供最大控制权,并支持 MCP 客户端和新兴的 WebMCP 标准。
Cloudflare Workflows 控制平面从 V1 升级到 V2,支持更高并发和创建速率,以应对智能体(Agent)工作流激增。新架构通过 SousChef 和 Gatekeeper 组件实现水平扩展,解决了 V1 中 Account Durable Object 的单点瓶颈问题。
Cloudflare 发布实验性语音管道 @cloudflare/voice,让开发者能轻松为 Agents SDK 智能体添加实时语音交互。管道基于现有 Durable Object 架构,支持连续 STT 和 TTS,提供 React 钩子和客户端库,并内置 Workers AI 提供商。
Gitar 是一家专注于代码验证的初创公司,其平台利用 AI 智能体执行代码审查、管理 CI/CD 工作流等质量保障任务。公司认为,在 AI 生成代码泛滥的背景下,自动化验证比生成更重要,并已获得 900 万美元融资用于团队扩张和产品开发。
VAKRA 是一个可执行的基准测试,用于评估 AI 智能体在模拟企业环境中的表现。它包含四个核心能力测试:API 链式调用、工具选择、多跳推理以及多源多跳推理与策略遵循。测试显示当前模型在 VAKRA 上表现不佳。
AI 智能体通过自主读写代码、调用工具等能力扩展了攻击面,包括智能体间交互等传统安全模型无法检测的风险。有效的对策是在模型、系统和人工监督三个层面实施分层控制,如最小权限、内容检查和操作审批。