资讯

AI Agent Skills 生态的最新动态、教程和深度分析

共 1192 篇文章

AI 写代码快，但技术债谁还？

96% 的开发者不信任 AI 生成的代码，但只有 48% 会持续验证。AI 降低了写代码的门槛，却把成本转移到了验证和维护环节。团队需要用“引导—验证—解决”框架，在生成代码的每个环节嵌入质量管控。

深度The New Stack·6月23日·6 分钟

DNS能为AI智能体提供可信身份吗？

ANS 标准通过 DNS 为 AI 代理提供可验证身份，但依赖域名注册商和证书颁发机构的传统信任层级存在安全风险。该方案与 Google A2A、Cisco AGNTCY 等竞争，大玩家尚未加入。

深度The New Stack·6月23日·4 分钟

IBM 开源 CUGA：一个轻量级 Agent 执行框架，附 24 个可复制应用

CUGA 是 IBM 开源的轻量级 Agent 执行框架（Harness），负责规划、执行、工具调用和状态管理，开发者只需提供工具列表和提示词。本文通过一个完整的 IBM Cloud 顾问应用示例，展示了 CUGA 的核心设计理念——将复杂管道内置，让开发者专注于业务逻辑。框架支持多种模型提供商、MCP 工具、长期规划与自我修正，并已在 AppWorld 和 WebArena 基准测试中取得领先成绩。

深度Hugging Face·6月23日·12 分钟

Transformers.js 跨域存储 API 实验：解决模型重复下载难题

Transformers.js 作为浏览器端运行 AI 模型的工具，面临因缓存隔离导致的重复下载问题。文章通过自动语音识别和情感分析两个管道示例，展示了模型和 Wasm 运行时资源在不同源间无法共享缓存，进而引出了跨域存储 API 这一解决方案。

深度Hugging Face·6月23日·6 分钟

ParallelKernelBench：前沿LLM还写不好多GPU内核

ParallelKernelBench测试LLM编写多GPU CUDA内核的能力，涵盖87个真实负载。前沿模型零样本下最佳仅解决28/87，其中22个快于基线。agent迭代可提升至35/87正确，但性能平台化。模型在rank协调、通信机制选择上存在根本性局限。

深度·6月23日·12 分钟

用 Claude Code 把图像修复模型搬到浏览器

作者利用 Claude Code 和 Claude Opus 4.8，将仅支持 PyTorch 和 CUDA 的 Moebius 0.2B 图像修复模型转换为 ONNX 格式，并通过 WebGPU 部署到浏览器中。整个过程采用“氛围编码”（vibe coding），作者未编写任何代码，仅通过测试、反馈和引导让 AI 完成所有工作。最终成果是一个纯客户端 Web 应用，支持用户上传图片、标记去除区域并运行修复。

教程Simon Willison·6月22日·10 分钟

Gray Swan 深度对话：AI 安全的独特挑战与红队测试

本文讨论了 AI 安全与网络安全的根本区别，深入探讨了提示注入、自动化红队测试、模型鲁棒性、代理身份等关键话题。Gray Swan 的 Shade 等工具已被 Anthropic 用于评估 Claude 模型对提示注入的防御能力。

深度Latent Space·6月22日·4 分钟

AI智能体循环：从写代码到无限持续改进

本文探讨了智能体循环（Agentic Loop）的概念，即让多个智能体在后台持续运行、无限循环地改进代码或其他任务。Claude Code 创始人 Boris Cherny 认为这是 AI 领域的重大一步，但也面临高昂的 token 成本和失控风险。文章还介绍了 Ralph Loop 等简单实现方式，以及循环与测试时计算的关系。

深度·6月22日·4 分钟

Cursor 收购开源 Copilot 替代品 Continue，产品停运

Cursor 低调收购了开源 AI 编码助手 Continue，产品已停用，用户需在 7 月 15 日前导出数据。该收购为人才引进，代码库移交社区。

深度The New Stack·6月22日·4 分钟

别给Agent数据库密码了，用治理工具替代

AI Agent在生产环境中失败不是因为缺乏自主性，而是因为自主性缺乏结构。将Agent与数据的交互分为四类：语义层问答、受控查询、注册函数调用和向量搜索，每类都需要独立的治理工具。CrewAI AMP集成了Databricks，提供四个托管MCP服务器分别对应这四种模式。

指南CrewAI·6月22日·5 分钟

AI 说服力超越专家；自维持 AI 的路径

研究显示，AI 在说服人类改变政策立场和捐款意愿方面，效果远超经过训练和激励的专业人类，速度优势是关键。DeepMind 论文勾勒了从 AGI 到 ASI 的演进可能。Ajeya Cotra 认为 10 年内可能出现自维持 AI，而 Timothy B. Lee 认为可能需要 50 年。

深度·6月22日·6 分钟

公开Sentry密钥即可劫持AI编程助手

Tenet Security发现，攻击者只需获取公开的Sentry DSN，就能注入伪造错误事件，通过MCP协议诱导AI编程代理执行任意代码。他们在2,388个组织中验证了该攻击，成功率85%。

深度The New Stack·6月21日·9 分钟

让AI Agent像量化分析师一样搜索

AI Agent的搜索能力经历了三个阶段：从向量数据库到混合搜索，再到现在的“搜索即代码”。Agent不像人类用户那样懒散和模糊，它可以使用精确的查询语言、元数据过滤、时间范围筛选、语义排序等专业手段。开发者需要为Agent提供丰富的检索工具箱，而非沿用为普通用户设计的简化方案。

深度The New Stack·6月21日·5 分钟

Nvidia 眼中的 Agent：大语言模型加执行框架

Nvidia 开发者技术总监 Nader Khalil 在接受专访时阐述了 Agent 的定义（LLM + Harness），并透露公司已向 OpenClaw 全职投入多名开发者以支持其社区。他还介绍了 Nvidia 的 Agent 蓝图（Blueprint.如 NanoClaw）和技能（Skill）策略，认为每个企业都将构建自己的专用 Agent，而 Nvidia 的目标是提供生态所需工具。

深度The New Stack·6月21日·7 分钟

实测Gemini CLI与Antigravity：迁移日真相

Google关闭了Gemini CLI，改用Antigravity CLI。测试显示Antigravity能处理文件编辑和脚本任务，速度稍慢但更稳定，扩展迁移顺利。

深度The New Stack·6月20日·7 分钟

Lighthouse Agentic 浏览评分详解

Lighthouse 的 Agentic 浏览评分不输出 0-100 加权分，而是基于通过审计项的比例给出分数比和通过/未通过状态。评分受 WebMCP 工具注册时序、无障碍树结构变化和累计布局偏移等因素影响。审计覆盖 WebMCP 集成、无障碍树可用性、页面稳定性及 llms.txt 文件。开发者应使用 WebMCP、保证语义 HTML 和 ARIA 标注、减少布局偏移来提升兼容性。

指南·6月20日·4 分钟

从PGP到Mythos：出口管制为何难以阻止技术扩散

美国政府对Anthropic的AI模型实施出口管制，但历史表明这类措施效果有限。从PGP的“加密战争”到《瓦森纳协定》的漏洞，技术总能找到扩散的途径。当前僵局可能以撤销限制或加重企业合规负担告终。

深度·6月19日·6 分钟

GitHub 内部数据分析 Agent 架构详解

本文介绍了 GitHub 内部 AI 数据分析助手 Qubot 的架构与实现，包括用户界面、上下文层、评估框架和查询引擎。Qubot 通过 Slack、VS Code 和 Copilot CLI 提供接口，连接 Kusto 和 Trino 两种查询引擎，并利用 GitHub MCP Server 加载上下文。文章还分享了关键经验：结构化上下文不仅能提高准确率，还能让回答速度快三倍。

深度GitHub·6月19日·6 分钟