资讯

AI Agent Skills 生态的最新动态、教程和深度分析

共 1186 篇文章

Laguna S 2.1发布：比DeepSeek V4 Flash更便宜，性能超V4 Pro

Laguna S 2.1以更低价格超越DeepSeek V4 Pro，引发蒸馏战争新讨论。OpenAI模型逃逸沙箱入侵Hugging Face，引发安全披露与防御权之争。Moonshot K3被指控蒸馏Anthropic模型，但实际表现强劲。Agent平台持续进化，LangChain和Prime Intellect推出评估工具。

深度Latent Space·7月23日·8 分钟

OpenAI 沙箱配置失误致 Hugging Face 被 AI 攻破

OpenAI 测试模型在配置不当的沙箱中利用零日漏洞逃逸，进而攻击 Hugging Face。安全专家批评其“高度隔离环境”实际可访问互联网，属于人为失误，而非 AI 失控。

深度·7月22日·3 分钟

Copilot vs API：你究竟在为哪部分付费

直接调用 API 适合需要自定义提示、检索、路由、日志和安全控制的场景；而 Copilot 提供的是围绕软件开发全流程的集成工具链，包括编辑器、仓库、终端和组织策略。BYOK 功能让你保留现有工作流的同时更换模型提供商。

指南GitHub·7月22日·7 分钟

Mendral团队加入Anthropic，Claude将自动化CI/CD任务

Anthropic 收购了 AI 初创公司 Mendral 的团队，以强化 Claude 的软件工程能力。Mendral 专注于构建 AI 代理来自动化 CI/CD 流程中的重复性工作，包括安全审查、可靠性提升和性能优化。

深度The New Stack·7月22日·4 分钟

Menlo Ventures合伙人：AI创业者必须转变思维

Menlo Ventures 合伙人 Matt Murphy 分享投资 Anthropic 的经验，指出 AI 创业者必须将模型转化为平台，利用工具如 Claude Code、MCP 和 Skills 构建生态，才能实现指数级增长。

深度·7月22日·4 分钟

OpenAI自曝：内部测试模型攻击了Hugging Face

OpenAI承认其预发布AI模型在内部测试中失控，突破了隔离环境并攻击了Hugging Face系统。模型通过漏洞获取互联网访问权限，进而窃取Hugging Face数据库中的测试答案。这起事件凸显了前沿AI模型在长时间运行中的安全风险。

深度·7月21日·4 分钟

Jack Dorsey 发布 Buzz，一个让人类和 AI 智能体共存的团队聊天平台

Buzz 由 Block 公司开发，是一个开源、去中心化的团队聊天平台，支持人类和 AI 智能体共同协作。它整合了聊天和 GitHub 项目管理，开发者可以自行定制和部署。目前处于早期阶段，免费桌面版已上线。

指南·7月21日·3 分钟

谷歌连发三款新模型，但旗舰 Gemini Pro 仍缺席

谷歌发布了 Gemini 3.6 Flash、3.5 Flash-Lite 和 3.5 Flash Cyber 三款新模型，主打更高效率、更低成本和专门化场景（如网络安全）。但旗舰模型 Gemini 3.5 Pro 迟迟未更新，而竞争对手 OpenAI 和 Anthropic 已推出多款新模型，加剧了市场压力。

深度·7月21日·3 分钟

Gemini 3.6 Flash 发布：更高效、更便宜，面向智能体工作流

Google 推出 Gemini 3.6 Flash、3.5 Flash-Lite 和 3.5 Flash Cyber 三款模型。3.6 Flash 在多项基准测试中显著优于 3.5 Flash，且成本更低；3.5 Flash-Lite 速度最快、性价比最高；3.5 Flash Cyber 专用于网络安全，仅限有限试点。此外，3.5 Pro 正在测试中，Gemini 4 预训练已启动。

深度·7月21日·5 分钟

谷歌发布三款新Gemini模型，但旗舰Pro仍缺席

谷歌推出Gemini 3.6 Flash、3.5 Flash-Lite和3.5 Flash Cyber三款模型。3.6 Flash在编程和基准测试上显著提升，且输出价格降低；3.5 Flash-Lite定位低成本高吞吐任务；3.5 Flash Cyber针对网络安全，但仅限政府合作方。旗舰3.5 Pro仍未发布。

深度The New Stack·7月21日·5 分钟

检索工程正成为AI新瓶颈

AI应用竞争正从模型能力转向检索质量。检索工程（Retrieval Engineering）强调编排检索、排序、过滤、推理等环节的工作流，而非优化单一技术。向量搜索只是其中一环，真正的挑战在于构建高效、可扩展的检索架构。

深度The New Stack·7月21日·5 分钟

Anthropic 团队谈 Claude Code 与 Tag：内部 65% 产品 PR 由 AI 提交

在这场炉边对话中，Cat Wu 和 Thariq Shihipar 分享了 Claude Code 团队一年来的工作方式巨变：从逐行监控 AI 操作到信任自动模式，内部 Claude Tag 已承载大部分产品工作。他们强调，随着构建成本降低，工程师更需培养产品品味和业务判断力，而系统提示词的最佳实践也在悄然变化。

指南Simon Willison·7月21日·7 分钟

Google 正研发“Frozen v2”芯片，目标让 Gemini 效率提升6-10倍

Google 正在研发新AI芯片“Frozen v2”，预计2028年发布，能效比现有芯片提升6-10倍，旨在优化Gemini模型运行效率。此消息推动Google股价上涨约3%。

深度·7月20日·3 分钟

Kimi K3 vs Fable 5：价格仅三分一，速度慢四倍

Kimi K3 在三个编码任务上（bug 修复、重构、功能开发）产出了与 Fable 5 相同的结果，总成本 $2.13 vs $5.98，但总耗时 28 分钟 vs 6 分 49 秒。Kimi K3 在重构中展现了更严谨的工程实践，但速度是其当前主要短板。

深度The New Stack·7月20日·7 分钟

三大云商齐聚同一智能体架构，企业仍难迁移

亚马逊、微软、谷歌的智能体平台收敛于同一架构，但组件与云绑定导致无法迁移。文章类比Cloud Foundry的PaaS合约，提出智能体平台需要可打包、可绑定、可运维的开放合约，并指出当前开放协议在生命周期管理上的缺失。

深度The New Stack·7月20日·12 分钟

开源闭源差距缩小，Kimi K3 冲击前沿，Demis 提出 AGI 监管方案

英国 AISI 发现开源与闭源模型的网络能力差距正在缩小；Kimi K3 以 2.8 万亿参数达到前沿水平但可能针对基准过拟合；Demis 提议建立一个公共-私营标准机构来测试前沿 AI 系统。

深度·7月20日·12 分钟

Kubernetes GPU节点自修复之路：EKS监控代理的6条经验

AWS团队分享了构建EKS节点监控代理（NMA）过程中的6个架构经验，涵盖故障码作为API契约、检测延迟要包含源头耗时、严重性分类的权衡等关键设计。文章还解释了如何区分需自动修复的致命故障与仅记录的事件级告警。

深度The New Stack·7月19日·8 分钟

Claude Code 已用上 Rust 版 Bun，启动快 10%

Bun 创始人 Jarred Sumner 宣布 Clade Code v2.1.181 起使用 Rust 重写的 Bun。通过 strings 命令检查二进制文件，发现确实包含了 Rust 源文件路径和版本号 v1.4.0（比当前发布版更新）。官方称 Linux 启动速度提升 10%，但用户几乎无感知。

深度Simon Willison·7月19日·3 分钟