资讯

AI Agent Skills 生态的最新动态、教程和深度分析

共 1192 篇文章

SkipLabs 发布 Skipper：零迭代的闭环编码智能体

SkipLabs 发布 Skipper，一个闭环编码智能体，用户输入自然语言描述或 OpenAPI 规范，即可生成完整后端服务，无需人工迭代。其核心是源自 Skip 语言的响应式运行时，自动管理状态和并发，避免 AI 代码的常见问题。

深度The New Stack·6月1日·6 分钟

xAI前员工揭秘：视频模型的下一个前沿是Agent

Ethan He 分享了从 Cosmos 到 Grok Imagine 的实战经验，包括小团队快速迭代、VAE 与实时性权衡、音频-视频对齐等关键技术细节。他预测视频 Agent 将成为未来趋势，且语言模型可能比海量视频数据更能提升视频生成质量。

深度Latent Space·6月1日·6 分钟

Hyland CEO：别拆掉企业重建，这才是AI代理的正解

Hyland CEO Jitesh Ghai 批评了“推倒重来”的AI代理部署模式，主张基于现有企业内容与数据提供上下文。公司发布了Enterprise Context Engine、Agent Mesh、Agent Lifecycle Management以及Content Innovation Cloud的无头模式，旨在让受监管行业的企业能够安全、高效地引入AI代理。

深度The New Stack·6月1日·6 分钟

智能体逻辑：企业级AI落地的关键

企业工作流具有动态、长周期、多API/数据库、受业务策略约束等特点。IBM 在多个产品中验证了智能体逻辑（如程序分析、知识图谱）能显著提升智能体性能并降低成本，例如在主程序分析中实现约 30 倍 token 节省，在测试生成中提升 20%-45% 覆盖率且 token 消耗降低 15 倍。

深度Hugging Face·6月1日·8 分钟

AI经济年增2000%却看不见？新研究揭示测量困境

美国AI经济以每年约2000%的速度增长，但常规GDP统计无法反映这一增长，因为AI算力价格下降抵消了名义收入增长。研究人员建议建立AI卫星账户、改进数据收集，以更好地评估AI对经济的真实影响。

深度·6月1日·12 分钟

AI 检索正从工具问题变成系统问题

AI 检索正在从单纯的工具选择转向系统架构设计。GigaOm 的报告强调，碎片化的检索架构会带来隐藏的工程成本，建议采用渐进式整合策略，从排序和验证开始，逐步合并检索能力。

深度The New Stack·5月31日·4 分钟

Cursor Jira 实测：四轮测试，AI 自主修 Bug 加功能

作者用 Cursor 的 Jira 集成做了四轮测试（两个 Bug 修复、两个功能开发），对比清晰和模糊两种工单质量。结果 AI 能独立完成代码修改、添加测试、并在 Jira 上自动评论关单。模糊工单的表现尤其惊艳，但作者仍不建议用于生产环境。

深度The New Stack·5月31日·7 分钟

Anthropic 详解：多产品下的 Claude 安全沙箱策略

Anthropic 详细介绍了其产品线中使用的沙箱技术：Claude.ai 用 gVisor，Claude Code 用 Seatbelt 和 Bubblewrap，Claude Cowork 用完整虚拟机。文章还披露了一些之前遗漏的风险，比如通过 api.anthropic.com/v1/files 泄露数据的漏洞。

深度Simon Willison·5月30日·3 分钟

GitHub Copilot 改用按量计费，开发者直呼“看不懂”

GitHub Copilot 将于 6 月 1 日切换到基于 token 的按量计费，取代原来的固定订阅制。部分开发者反映费用暴涨数十倍，引发社区争议；批评者认为只有缺乏经验的“氛围程序员”才会消耗过多 token。微软尚未回应置评请求。

深度·5月30日·3 分钟

67%事实核查上分岐：前沿LLM在现实世界撒谎？

Lenz平台的研究发现，五款前沿LLM对1000条真实用户事实核查声明中有67%存在分歧，其中34%有实质分歧，21%完全对立。研究还揭示了模型在中间判定（“基本真实”“误导”）上分歧更大，Claude Opus 4.7与多数派对齐率最低（70%），但多数派也并非总是正确。开发者需在高风险应用中验证AI输出。

深度The New Stack·5月30日·6 分钟

9 个视频看懂 Gemini Omni 和 3.5

Gemini Omni 支持多模态输入生成视频，可用自然语言迭代编辑。Gemini 3.5 Flash 在智能体和编码任务上表现突出，能驱动子智能体、实时生成 UI 和搜索中的智能体体验。

指南·5月29日·4 分钟

Braintrust 用 Codex 快速实现客户需求

Braintrust 使用 OpenAI Codex 与 GPT‑5.5，将客户功能请求在几分钟内转化为可运行的预览分支。一半团队一个月内迁移到 Codex，CEO 强调速度不仅提升编码效率，更缩短了客户反馈循环，并解锁了自主问题解决能力。

深度OpenAI·5月29日·3 分钟

Claude Opus 4.8 发布：诚实度提升四倍

Claude Opus 4.8 发布，官方坦诚这是一次小幅迭代改进。新模型显著提升了诚实度，能更好地识别并报告不确定性，缺陷遗漏率降低约四倍。新增中间对话系统消息功能，支持在长对话中动态更新指令，同时降低了提示词缓存的最低长度门槛。

深度Simon Willison·5月28日·5 分钟

LLM-Anthropic 0.25.1 发布：支持 Opus 4.8 和快速模式

llm-anthropic 0.25.1 更新：新增 Claude Opus 4.8 模型，支持快速模式（需组织启用），并调整默认 max_tokens 为模型的最大输出限制。

指南Simon Willison·5月28日·1 分钟

AWS 为 AI 代理重塑云基础设施

随着 AI 代理从实验走向生产，AWS 推出新一代 OpenSearch Serverless，解耦计算与存储，实现秒级伸缩和空闲零成本。Cloudflare 的数据显示，机器流量已占 HTTP 流量的 31%，预计 2027 年上半年将超过人类流量。基础设施厂商正全面转向为代理工作负载优化。

深度·5月28日·5 分钟

Asana 7500 万美元收购无代码 Agent 构建平台 StackAI

Asana 收购 StackAI 加速 AI 转型，整合其无代码 Agent 构建能力，巩固企业工作流自动化优势。收购金额 7500 万美元，StackAI 此前融资近 2000 万美元。

深度·5月28日·3 分钟

Anthropic 完成 650 亿美元融资，估值逼近万亿

Anthropic 以 9650 亿美元估值完成 650 亿美元 H 轮融资，多家顶级机构参投。资金将用于安全研究、算力扩展和产品开发。公司年化收入超 470 亿美元，预计将首次实现盈利。

深度·5月28日·4 分钟

异步智能体时代：Cognition 与 OpenInspect 深度对谈

本期播客讨论了异步智能体的兴起、2025 年 12 月的模型拐点使规范到 PR 工作流成为现实、Devin 在企业中的实际使用经验、背景智能体的架构选择（执行框架在盒内 vs 盒外）、以及智能体记忆、多智能体编排、SRE 自动分诊等话题。

深度Latent Space·5月28日·8 分钟