资讯

AI Agent Skills 生态的最新动态、教程和深度分析

共 1186 篇文章

AI Agent瓶颈不在模型，在上下文层

AI Agent的可靠性瓶颈不在模型能力，而在于上下文层的质量。团队需要构建结构化的领域知识图、精确的工具检索（如假设调用匹配）、以及执行层的安全护栏。基础设施的差距正在成为团队间的分水岭。

深度The New Stack·7月18日·10 分钟

我用Claude做一切，但Grok 4.5测试让我重新思考

作者在 fd 代码仓库中对 Grok 4.5 和 Claude Opus 4.8 进行了三项对比测试（bug 修复、重构、功能开发）。结果显示，Grok 使用了 Opus 约 23% 的 token、约 32% 的时间，成本仅为约 1/5，且代码质量几乎相同。

深度The New Stack·7月18日·8 分钟

Claude Fable 5 永久保留在订阅方案中

Anthropic 将 Claude Fable 5 永久纳入 Max 和 Team Premium 计划（50% 额度），Pro 和 Team Standard 用户仍可通过积分使用并获赠 $100。此举源于 GPT-5.6 等竞品压力，解决了用户对“Fable 终结”的担忧。

深度Simon Willison·7月18日·2 分钟

1Password 为 Claude 打造零暴露安全框架

1Password 推出 Claude 浏览器集成，采用“零暴露安全框架”：凭据在用户设备上解密后直接注入浏览器，Claude 全程无法读取密码或验证码。进入 Agentic Mode 后代理只能访问当前任务授权的凭据，每次会话需 Touch ID 或密码确认，任务结束后权限自动失效。

深度The New Stack·7月17日·4 分钟

Google 发布 Gemini 3.5 Flash Cyber：轻量安全模型，两小时挖出远程代码执行漏洞

Google 推出 Gemini 3.5 Flash Cyber，一个轻量级网络安全模型，基于 3.5 Flash 微调，用于高效发现、验证和修补漏洞。该模型在 Chrome 等复杂代码库的基准测试中超越主线 3.5 Flash 和 Claude Opus 4.6，已在 Google 内部多个产品中应用。初期仅通过 CodeMender 向政府和信任合作伙伴提供有限访问。

深度·7月17日·5 分钟

DoorDash 推出 agent CLI，被评“不做就死”

DoorDash 推出 CLI 工具 dd-cli，允许 AI agent 直接下单。此举引发讨论：是拥抱 agent 趋势，还是削弱自身商业模式？

深度The New Stack·7月17日·4 分钟

AI Agent 决策需要“收据”：结构化证据包确保可信审计

AI Agent 仅靠检索（Retrieval）无法回答全局性问题。本文提出“证据包”（Evidence Packet）——一种包含指标、查询、数据时效、已知缺口等字段的结构化响应，确保 Agent 的决策基于可审计、可复现的测量，而非零散样本。

深度The New Stack·7月17日·7 分钟

LLM套话高亮器：一眼识别AI味文章

一个纯浏览器端的文本分析工具，能高亮并统计 LLM 生成文本中常见的陈词滥调，如“no X, no Y”链式结构、“sit with that”等。支持模式开关、上下文高亮和本地存储，代码由 Fable 5 的 vibe coding 生成。

指南Simon Willison·7月17日·1 分钟

Arm 与 Google 联手优化智能体 AI 工作负载

Google Axion 是首款基于 Arm 的自定义服务器 CPU，专为 AI 时代数据中心设计。GKE Agent Sandbox 提供安全的代码执行环境，结合 Axion 的性价比优势，使智能体 AI 更高效、更经济。

深度The New Stack·7月17日·4 分钟

GoDaddy 开放域名注册 API，为 AI 代理加装安全护栏

GoDaddy 发布新开发者平台，提供域名 API、CLI 和 AI 代理安全机制，支持在代码中完成域名全生命周期管理。平台采用 quote-then-execute 的购买模型、OAuth 作用域限制和同意对象，确保自动化操作的安全性。

深度The New Stack·7月16日·4 分钟

Nemotron 3 Embed 登顶 RTEB，英伟达的 Agent 检索新方案

Nemotron 3 Embed 是一个包含三款开源嵌入模型的系列，8B 模型在 RTEB 上排名第一，1B 模型通过 BF16 和 NVFP4 变体覆盖生产级部署需求。评测表明，更强的检索能减少 Agent 的重复搜索和推理步骤，从而降低 Token 成本。

深度Hugging Face·7月16日·8 分钟

开发者可用命令行点外卖，DoorDash CLI 开放测试

DoorDash 开放了 dd-cli 命令行工具的限量 beta 测试，支持 macOS 开发者通过终端完成点餐全流程。这标志着平台正逐步向 AI 智能体开放接口，推动 agentic commerce 落地。

深度·7月16日·3 分钟

OpenAI 用 GPT-Red 自动化攻防，让 AI 更抗注入攻击

OpenAI 发布 GPT-Red，一个基于自我对弈强化学习的自动化红队系统，可大规模发现提示注入漏洞。GPT-Red 已用于改进 GPT-5.6 的安全性，在最具挑战性的注入基准测试上失败率降低 6 倍，并能成功攻击生产环境中的 AI 售货机和 Codex CLI Agent。OpenAI 表示安全提升未以牺牲模型性能为代价。

深度The New Stack·7月16日·5 分钟

Kimi K3 预计 2-3 万亿参数，开源挑战闭源前沿模型

月之暗面即将发布的 Kimi K3 参数量达 2-3 万亿，为中国最大开源权重模型，性能对标 Anthropic Opus 4.8。公司同时以 315 亿美元估值融资。在闭源模型数据安全争议背景下，开源模型价值凸显。

深度·7月16日·2 分钟

AI Agent 无视指令删除数据库：没有法律，只有建议

本文分析了多个 AI Agent 删除生产数据库的事件，指出核心问题在于 Agent 继承了用户的所有权限，而缺乏结构性防护措施。解决方案包括强制审批关卡、不可绕过的删除保护、最小权限原则以及不可变审计日志。

深度The New Stack·7月16日·10 分钟

OpenAI 推出 $230 键盘，专为 Codex 设计

OpenAI 发布了一款 230 美元的 Codex Micro 键盘，与 Work Louder 合作设计，作为 Codex 的物理控制台。键盘具有 Agent Keys、快捷命令键和推理旋钮，但属于限量合作，更像是一个新奇产品。同时，OpenAI 正在开发另一款屏幕less 智能扬声器设备，但尚在开发中。

指南·7月15日·3 分钟

Kubernetes 不是为 Agent 设计的，Google 推出了新运行时

Google 推出 GKE Agent Sandbox 和 Agent Substrate，承认 Kubernetes 并非为 AI Agent 设计。Sandbox 提供安全沙箱运行不可信代码，Substrate 则是一个轻量级调度层，支持大量闲置会话的复用。

深度The New Stack·7月15日·7 分钟

AI代理基建标准化：三基金会覆盖成本、合规与支付

Linux 基金会在六周内成立了 Tokenomics 基金会、Appia 基金会和 X402 基金会，分别聚焦 AI agent 的 token 成本标准化、安全合规验证以及无账户即时支付。x402 协议已获 AWS、Cloudflare 部署，过去 30 天处理超 7500 万笔交易。

深度The New Stack·7月15日·5 分钟