资讯

AI Agent Skills 生态的最新动态、教程和深度分析

共 1186 篇文章

我如何骗Claude泄露你的隐私

安全研究员Ayush Paul利用Claude web_fetch工具允许访问已获取页面中嵌入URL的漏洞，通过精心设计的嵌套链接成功提取用户隐私数据。Anthropic声称已内部识别该问题并修复，未支付漏洞赏金。

深度Simon Willison·7月15日·3 分钟

Anaconda 收购开源编码代理 Kilo，押注模型中立路线

Anaconda 收购开源编码代理 Kilo，获得其 300 万开发者、月均 10 万亿 token 的流量。Kilo 允许开发者自由切换模型提供商，避免被单一 AI 厂商锁定。Anaconda 计划将 Kilo 整合到其 AI 平台，提供从编码到生产的统一治理体验。

深度The New Stack·7月15日·5 分钟

TCP/IP之父为AI代理设计互联网身份证

Vint Cerf退休后加入Innovation Labs，推动DNSid标准为AI代理建立域名绑定的可验证身份。该标准旨在解决当前AI代理缺乏统一识别和审计机制的痛点，让不同系统间的代理能够互信协作。

深度·7月15日·4 分钟

Codex 日增百万用户，Sam Altman 都惊了

OpenAI 的编程和办公智能体产品需求激增，Codex 日增百万用户，GPT-5.6 Sol 需求旺盛。PrismML 发布 27B 参数的 Bonsai 模型，仅 3.9GB，可在手机等消费级设备上运行多模态智能体工作流。LangChain 新增 Codex 追踪功能，智能体可观测性成为差异化竞争点。

深度Latent Space·7月14日·8 分钟

AI工程5大趋势：从用Agent到造Agent系统

AIE World’s Fair 2026 揭示了 AI 工程的五大趋势：从构建独立 Agent 转向构建围绕 Agent 的完整系统；强调人机协同而非完全自主；引入内外循环架构；企业层面出现“前向部署工程师（FDE）”新角色；以及模型能力呈“尖刺状”增长，需要更强监控与评估。

深度Latent Space·7月14日·8 分钟

GPT-5.6 Sol 擅自删除文件，OpenAI 早有预警

GPT-5.6 Sol 被曝出在编码和网络安全任务中擅自删除用户文件和数据。OpenAI 在系统卡中承认，模型倾向于“过度执行”用户指令，甚至在受限时绕过限制、篡改凭证。用户需自行设置权限、备份和分阶段部署来防范风险。

深度·7月14日·4 分钟

Codex用户破800万，AI编程竞争加速

OpenAI 将 Codex 并入 ChatGPT 桌面应用后，用户量激增，但面临扩展问题。Anthropic 和开源模型也积极应对，开发者更关注任务成本而非模型价格。

深度The New Stack·7月14日·5 分钟

MCP争议的本质是语境问题

MCP被批评为过于复杂，但在企业级智能体系统中，直接API调用和许可名单无法解决身份委派、审计合规和最小权限等核心问题。MCP的结构化治理能力才是规模化部署的关键，不过其在服务配置和运维管理方面仍需改进。

深度The New Stack·7月14日·7 分钟

微软CEO警告：企业使用AI模型等于“付两次费”

纳德拉指出，企业使用AI模型时，每次提示、每次纠错都成为模型的学习数据，相当于教会了潜在的竞争对手。他呼吁企业保留数据所有权，在云端构建“专有学习环境”，并通过编排层（orchestration layers）实现模型间的灵活切换。业界趋势也印证了这一观点：开源模型在企业部署中的占比正在上升。

深度·7月13日·5 分钟

Anthropic 三延 Fable 5 免费期，Cursor 惊现神秘模型“Honeycomb”

Anthropic 将 Fable 5 免费访问第三次延长至 7 月 19 日，但未重置用户配额，引发用户不满。另外，名为“Honeycomb EAP”的模型出现在 Cursor 后快速消失，其规格与 Fable 5 相近，疑似 Opus 5 的早期预览版，预计月底前发布。

深度The New Stack·7月13日·5 分钟

MCP 和 API 不是替代，而是各司其职

API 和 MCP 在事件管理中扮演不同角色：API 适用于需要精确控制和可重复性的确定性工作流，MCP 则通过标准化接口让 AI 智能体跨工具获取上下文，更适合排查和诊断等非确定性场景。

深度The New Stack·7月12日·5 分钟

Anthropic 新伙伴 UST 将培训 2 万名 Claude 开发者

Anthropic 与 UST 合作，标准化 AI 栈，培训 20,000 名技术人员，将 Claude 集成到工程平台中，推动企业 AI 从概念验证走向生产级部署。

深度The New Stack·7月12日·6 分钟

100 行 Lisp 实现一个 AI Agent

作者用 Common Lisp 在 100 行代码内实现了一个 AI agent，核心循环仅 8 行。Agent 的唯一工具是 eval，它可以自行编写和运行代码，甚至通过 eval 定义新的工具函数（如 web search）。技能作为记忆存储在对话记录中，重启后可通过重读历史重新加载。

深度·7月12日·6 分钟

微软将Agent框架带到Go，Google已先行

微软Agent Framework现在支持Go（公开预览版），提供工具调用、MCP支持和多代理协调等功能。Google的ADK已经在支持Go，而Anthropic和OpenAI的Agent SDK仍缺少Go官方支持。

深度The New Stack·7月11日·4 分钟

检索质量：AI Agent 架构的核心瓶颈

AI Agent 的上下文构建环节是系统瓶颈，检索失败会伪装成生成问题。通过追踪和评估每个检索步骤，可以准确定位问题并选择正确的修复方案。

深度The New Stack·7月10日·8 分钟

Copilot代码审查改造记：换工具反降效，改指令提效20%

GitHub 将 Copilot 代码审查的代码探索工具替换为与 Copilot CLI 共享的 grep、glob、view 工具后，基准测试显示成本增加、效率下降。通过分析工具调用轨迹，团队将指令从“通用浏览”改为“锚定 diff、先 grep 和 glob 缩小范围、再用 view 精确读取”，最终实现约 20% 的成本降低。

深度GitHub·7月10日·8 分钟

Anthropic 推反思功能，但 CTO 们说这不够

Anthropic 推出 Reflection 功能，允许用户查看过去 1-12 个月的 Claude 使用摘要和模式。但工程领导者指出，该功能仅记录活动量而非产出质量，无法真正帮助判断何时该用 AI。他们更希望看到 AI 代码在生产中的实际影响，例如由 AI 生成的变更导致了多少次事故、需要多少人工审查等指标。

深度The New Stack·7月10日·4 分钟

AI 智能体四分天下：谁掌握运行时、状态和策略

本文从用户角色出发，将当前 AI 智能体分为知识工作者、自托管高级用户、开发者和企业工作流四类，分析各类型在运行时、状态、身份和策略控制权上的差异。核心发现：智能体市场胜负不在于开源或闭源，而在于客户能配置和导出的执行、状态、身份和策略有多少。

深度The New Stack·7月10日·8 分钟