资讯

AI Agent Skills 生态的最新动态、教程和深度分析

共 1192 篇文章

100 行 Lisp 实现一个 AI Agent

作者用 Common Lisp 在 100 行代码内实现了一个 AI agent，核心循环仅 8 行。Agent 的唯一工具是 eval，它可以自行编写和运行代码，甚至通过 eval 定义新的工具函数（如 web search）。技能作为记忆存储在对话记录中，重启后可通过重读历史重新加载。

深度·7月12日·6 分钟

微软将Agent框架带到Go，Google已先行

微软Agent Framework现在支持Go（公开预览版），提供工具调用、MCP支持和多代理协调等功能。Google的ADK已经在支持Go，而Anthropic和OpenAI的Agent SDK仍缺少Go官方支持。

深度The New Stack·7月11日·4 分钟

检索质量：AI Agent 架构的核心瓶颈

AI Agent 的上下文构建环节是系统瓶颈，检索失败会伪装成生成问题。通过追踪和评估每个检索步骤，可以准确定位问题并选择正确的修复方案。

深度The New Stack·7月10日·8 分钟

Copilot代码审查改造记：换工具反降效，改指令提效20%

GitHub 将 Copilot 代码审查的代码探索工具替换为与 Copilot CLI 共享的 grep、glob、view 工具后，基准测试显示成本增加、效率下降。通过分析工具调用轨迹，团队将指令从“通用浏览”改为“锚定 diff、先 grep 和 glob 缩小范围、再用 view 精确读取”，最终实现约 20% 的成本降低。

深度GitHub·7月10日·8 分钟

Anthropic 推反思功能，但 CTO 们说这不够

Anthropic 推出 Reflection 功能，允许用户查看过去 1-12 个月的 Claude 使用摘要和模式。但工程领导者指出，该功能仅记录活动量而非产出质量，无法真正帮助判断何时该用 AI。他们更希望看到 AI 代码在生产中的实际影响，例如由 AI 生成的变更导致了多少次事故、需要多少人工审查等指标。

深度The New Stack·7月10日·4 分钟

AI 智能体四分天下：谁掌握运行时、状态和策略

本文从用户角色出发，将当前 AI 智能体分为知识工作者、自托管高级用户、开发者和企业工作流四类，分析各类型在运行时、状态、身份和策略控制权上的差异。核心发现：智能体市场胜负不在于开源或闭源，而在于客户能配置和导出的执行、状态、身份和策略有多少。

深度The New Stack·7月10日·8 分钟

OpenAI 宣布 GPT 5.6 成 Microsoft 365 Copilot 首选模型

OpenAI 在 GPT 5.6 发布时宣布该模型将成为 Microsoft 365 Copilot 的首选模型，回应了此前关于双方关系疏远的传闻。但该声明并未否认 Microsoft 同时也在增加自研模型使用以削减成本的报道。

深度·7月10日·2 分钟

OpenAI 发布 GPT-5.6 小中大三款模型

OpenAI 发布 GPT-5.6 系列，含 Sol、Terra、Luna 三款，主打编码效率与网络安全。Sol 在编码基准测试中超越 Anthropic Fable 5，且成本更低。同时推出面向企业团队的 ChatGPT Work 工具。

深度·7月9日·3 分钟

用自家AI Agent完成1亿美元融资

AI Agent 初创公司 Lyzr 使用自家 Agent “SivaClaw” 完成 1 亿美元 B 轮融资，证明了产品价值。整个过程中，创始人无需亲自出差，Agent 包揽了投资者沟通、备忘录撰写和幻灯片追踪等工作。

深度·7月9日·2 分钟

OpenAI 关停浏览器 Atlas，拥抱 Chrome 扩展

OpenAI 关停 Atlas 浏览器，将其智能体浏览功能移植到 ChatGPT 桌面应用和 Chrome 扩展中。这标志着 OpenAI 认为浏览器是功能而非目的地，因此专注于将 AI 能力融入用户已有的工作环境。

深度·7月9日·3 分钟

Tau：一个教学用的 Python 编码智能体

Tau 是一个教育性的 Python 编码智能体项目，通过三层架构（AI 模型适配、智能体循环、编码环境）教授智能体构建原理。它强调每个部件都可见，没有隐藏机制。

教程·7月9日·4 分钟

Meta 发布 Muse Spark 1.1，进军 AI 编程战场

Meta 发布 Muse Spark 1.1，聚焦智能体编程与企业自动化，定价与竞品持平略低。CEO 扎克伯格时隔三年首发 X 帖文力推，称其“智能体性能最强”。

深度·7月9日·3 分钟

OpenAI 把 Codex 并入 ChatGPT 应用，正面迎战 Claude Cowork

OpenAI 将 Codex 整合进 ChatGPT 桌面应用，推出面向知识工作者的智能体工具 ChatGPT Work，支持跨平台任务调度与第三方服务集成，直接与 Claude Cowork 竞争。

深度The New Stack·7月9日·5 分钟

GPT-5.6 三模型齐发，Sol 对标 Fable 5 但成本减半

OpenAI 发布 GPT-5.6 三款模型：旗舰 Sol、主流 Terra、廉价 Luna。Sol 在多数基准上对标甚至超越 Fable 5，但 token 成本更低。新模型内置程序协调工具，并新增 Ultra 模式以并行的四个子智能体加速复杂任务。

深度The New Stack·7月9日·6 分钟

DevRev 开源企业 AI 基准测试，挑战 Claude Code

DevRev 发布了企业 AI 智能体基准测试，关注大数据量下的检索能力。其智能体 Computer 在准确率上领先 Claude Code 22-35 个点，token 消耗仅为后者的三分之一。测试框架和数据集已开源。

深度The New Stack·7月9日·8 分钟

Claude Reflect：用数据让你离不开AI

Anthropic 为 Claude 推出了 Reflect 仪表盘，它能可视化你的 AI 使用习惯。表面上这是分析工具，深层意图是让用户看到 AI 如何融入日常，并鼓励更高效、更反思地使用，同时巩固用户粘性。

深度·7月9日·3 分钟

Prolog 也能调 LLM：pllm 库上手

pllm 是一个轻量 SWI-Prolog 库，提供 llm/2 谓词与 LLM 交互。支持 OpenAI 兼容端点、Ollama 本地模型，以及反向 prompt 生成功能。

教程·7月9日·2 分钟

Modal CTO 谈 AI 基础设施：从开发者体验到智能体体验

Modal CTO Akshat Bubna 与播客主持人探讨了 AI 基础设施的演进：从 Kubernetes 的不足到面向智能体的云原生设计。核心洞察包括：智能体需要更快的迭代反馈、沙箱成为关键原语、弹性推理和 GPU 快照解决冷启动问题，以及生产级智能体需要硬性的安全护栏。

深度Latent Space·7月8日·7 分钟