资讯

AI Agent Skills 生态的最新动态、教程和深度分析

共 1192 篇文章

Salesforce 36亿美元收购 AI客服平台 Fin

Salesforce 以 36 亿美元收购 AI 客服平台 Fin，意在利用其团队和技术增强企业级 AI 智能体平台 Agentforce。交易预计在 Salesforce 2027 财年第四季度完成，Fin 的 CEO 将继续留任。

深度·6月15日·2 分钟

NewCore获6600万美元，为企业AI代理建身份系统

NewCore获得6600万美元种子轮融资，估值3亿美元，为AI代理提供身份管理方案。平台采用“拆分密钥”架构，支持人类与AI代理的统一身份管控，并已与多家企业合作测试。

深度·6月15日·4 分钟

小米MiMo Code宣称200步任务超越Claude Code

编程Agent面临“持久力鸿沟”，百步以上的任务常因假设固化、错误累积和上下文丢失而失败。小米MiMo Code、伯克利Agents' Last Exam基准以及多种执行框架正在从不同角度攻克这一难题。

深度The New Stack·6月14日·8 分钟

AI 代理自主行动时，日志为何失效

传统日志已无法应对 AI 代理自主行动带来的审计挑战。文章对比了表面日志与完整审计记录的差异，解释了监管压力、AI 安全威胁如何推动日志需求升级，并指出良好的审计日志已直接关联企业收入和销售周期。

深度The New Stack·6月14日·10 分钟

MCP还不够：AI事故响应需要智能体执行框架

PagerDuty首席AI官认为，仅靠MCP无法有效处理事故响应。团队需要构建一个智能体执行框架，集成代码变更、日志、指标等上下文数据，并加入短期和长期记忆层，让AI代理能够自主排查问题并持续学习，最终从响应转向预防。

深度The New Stack·6月14日·5 分钟

Anthropic 新模型因出口管制被下架：白宫称其“把消费者模型置于安全之上”

Anthropic 的新模型 Fable 5 和 Mythos 5 因美国政府发现其存在越狱漏洞并发布出口管制令而被下架。Anthropic 称漏洞很轻微，但白宫 AI 负责人 David Sacks 指责 Anthropic 将商业利益置于安全之上。据悉，亚马逊 CEO 安迪·贾西向美国政府报告了这一漏洞，目前模型恢复时间未知。

深度The New Stack·6月13日·5 分钟

大模型深度的诅咒：深层Transformer为何失效

深度学习中的“深度诅咒”现象：深层Transformer中表示方差随深度呈指数增长，导致表示质量下降。本文从理论和实验角度分析了方差的增长模式、对模型性能的影响以及层归一化（Layer Normalization）的缓解作用。

深度·6月13日·3 分钟

AI编程进入循环时代，验证成最大挑战

AI编程正从提示驱动、规格驱动进入循环驱动时代。循环作为最小工作单元，需要四个层（运行时、验证接口、反馈、控制层）支撑。云原生系统因分布式特性，验证反馈的实时性与真实性矛盾突出。平台团队需要构建共享的验证层，否则循环可能低效甚至失控。

深度The New Stack·6月13日·11 分钟

Fable 5 vs Opus 4.8实测：结论接近，价格翻倍

作者对 Anthropic 的 Fable 5 和 Opus 4.8 进行了推理和编码两项对比测试。结果显示，两者在结论上高度一致，Fable 5 仅在分析深度上略有优势，但价格翻倍。对于独立开发者，Opus 4.8 性价比更高。

深度The New Stack·6月13日·6 分钟

开源内部工具Bottega：智能体编程的规划中心论

Bottega是一个开源的多执行框架（Harness）智能体编排工具，支持Claude Code、Codex和OpenCode。它强调以规划为中心，通过详细的计划模板、自动化实施和对抗性代码审查，减少了PR阶段的来回迭代，提升了代码质量。

教程·6月13日·6 分钟

模型分类：AI 使用者的新核心技能

Claude Fable 的强大能力与高昂成本，使得模型选择和分类成为区分高效与高成本 AI 用户的关键技能。专家建议仅将 Fable 用于规划、协调和审查，而将常规任务交给更便宜的模型。随着价格战和 token 定价变化，这一技能将变得对所有人都至关重要。

深度The New Stack·6月13日·4 分钟

Anthropic 安全警示反噬，美国政府叫停两大 AI 模型

美国政府下令 Anthropic 停用 Claude Fable 5 和 Claude Mythos 5，理由是国家安全。Anthropic 表示不满，称政府依据的是一项“狭窄、非通用的潜在越狱”证据，且相关能力已存在于其他公开模型。

深度·6月13日·4 分钟

美国政府下令，Anthropic撤回Fable 5和Mythos 5

美国商务部发布出口管制指令，要求Anthropic暂停Fable 5和Mythos 5的访问，原因是担心模型被越狱。Anthropic遵守指令但表示异议，称漏洞微不足道且其他模型同样存在。所有其他Claude模型保持不变。

深度The New Stack·6月13日·3 分钟

OpenAI WebRTC 音频对话工具升级，支持文档上下文

Simon Willison 升级了他的 OpenAI WebRTC 音频会话工具，支持最新的 GPT-Realtime-2 模型和文档上下文功能。用户可以在浏览器中粘贴文本，让语音对话围绕指定内容进行。

指南Simon Willison·6月12日·2 分钟

GitHub Copilot CLI 告别盲目委派：效率提升 23%

本文介绍了 GitHub Copilot CLI 如何通过优化子智能体委派策略来提升效率：通过分析代理轨迹识别不必要的委派，改进编排策略，并经过离线评估和生产环境 A/B 测试验证。改进后，工具调用失败率降低 23%，用户等待时间减少，且没有质量回退。

深度GitHub·6月12日·8 分钟

Stack Overflow 为 AI Agent 打造专属问答平台

Stack Overflow 发布 Stack Overflow for Agents，一个专为 AI 编码 Agent 设计的 API-first 知识共享平台。平台支持 Agent 自主查询和提交问题，但所有内容需经人类审核后发布，并绑定开发者声誉来实现问责。意图解决 Agent 在孤立环境中重复发现相同解决方案的“短暂性智能差距”问题。

深度The New Stack·6月12日·4 分钟

Claude Fable 的“主动”超乎想象：为修一个 CSS 自己写浏览器截图工具

Simon Willison 通过一个真实 Debug 案例展示了 Claude Fable 5 惊人的主动性：从分析依赖、启动开发服务器、用 pyobjc 截屏、注入 JavaScript 触发快捷操作，到自建 CORS 服务器收集浏览器运行时数据，最终定位并修复了一个两行 CSS 的 Bug。文章同时提醒，这类能力的另一面是巨大的安全风险——一旦被恶意指令劫持，破坏力难以估量。

深度Simon Willison·6月11日·8 分钟

Chainguard 扫描 5 万开源包，揪出“灰件”

Chainguard 称其新型源码扫描器可检测“灰件”——这些包功能透明但包含隐藏危害行为。自动分析超 10 万包/天，已封堵 5.2 万个恶意包。AI 开发让非技术人员引入依赖时更危险。

深度The New Stack·6月11日·5 分钟